在醫學領域,精準診斷和治療決策一直是醫生和患者關注的焦點。然而,面對海量的多模態數據,傳統方法往往力不從心。人工智能(AI)技術的崛起,正為這一難題帶來革命性解決方案。本期文章聚焦于新的研究成果——MUSK模型,通過整合病理圖像和臨床文本數據,不僅實現了跨模態檢索、視覺問答等復雜任務,還在分子標志物預測、癌癥預后和免疫治療反應預測中展現了卓越性能。MUSK的出現,標志著AI在精準腫瘤學領域的應用邁出了關鍵一步。通過本文,您將深入了解AI如何改變醫學的未來,以及它如何為患者帶來更精準、更個性化的治療選擇。
一. 研究背景
臨床決策依賴多模態數據,如臨床記錄和病理特征,但現有方法在整合這些數據方面存在局限。人工智能(AI)在整合多模態數據方面潛力巨大,但高質量標注數據集稀缺,阻礙了模型發展。基礎模型通過大規模預訓練,可在無需額外訓練的情況下應用于多種任務,為醫學AI開辟了新方向。然而,現有視覺-語言基礎模型在病理學領域面臨數據規模不足和任務復雜度有限的挑戰。
為此,本研究提出基于多模態統一掩碼建模變換器(MUSK)的視覺-語言基礎模型。MUSK利用大規模未標注病理圖像和文本數據進行預訓練,并進一步對齊圖像-文本對特征,旨在解決現有模型的局限性。通過廣泛任務評估,MUSK在跨模態檢索、視覺問答、圖像分類、分子標志物預測及臨床結果預測中展現了卓越性能,為精準腫瘤學和多模態AI應用提供了新工具。
二. 文章詳情
文章題目:A vision–language foundation model for precision oncology
中文題目:用于精準腫瘤學的視覺-語言基礎模型
發表時間:2025.02
期刊名稱:Nature
影響因子:50.5
DOI:10.1038/s41586-024-08378-w
三. 研究結果
1. MUSK模型預訓練
本研究開發了基于多模態Transformer架構的視覺-語言基礎模型,作為網絡骨干。模型預訓練分為兩個連續階段。首先,MUSK在5000萬張病理圖像和10億個病理相關文本標記上進行預訓練。這些圖像來源于11,577名患者的約33,000張全切片組織病理學掃描結果,涵蓋了33種腫瘤類型。借鑒BEiT3架構,MUSK模型由共享的自注意力模塊以及針對視覺和語言輸入的獨立專家模塊組成;預訓練通過掩碼建模實現。其次,MUSK在來自QUILT-1M模型的一百萬張圖像-文本對上進行了預訓練,采用對比學習方法以實現多模態對齊。