(示意圖/取自pixabay)
近日,微軟研究人員展示了LLaVA-Med模型,該模型主要用於生物醫學方面的研究,可根據CT、X光圖片等推測出患者的病理狀況。
據悉,微軟研究人員與一批醫院合作,獲得了使用生物醫學圖像文本對應大型數據集來訓練多模態 AI 模型。該數據集包括胸部 X 光、MRI、組織學、病理學和 CT 圖像等,覆蓋範圍相對全面。
微軟使用 GPT-4,基於 Vision Transformer 和 Vicuna 語言模型,在八個NVIDIA A100 GPU 上對 LLaVA-Med 進行訓練,其中包含「每個圖像的所有預分析資訊」,用於生成有關圖像的問答,以滿足「可自然語言回答有關生物醫學圖像問題」的助手願景。
在學習過程中,模型主要圍繞「描述此類圖像的內容」以及「闡述生物醫學概念」而展開。
據微軟指出,該模型最終具有出色的多模式對話能力,且在用於回答視覺問題的三個標準生物醫學數據集上,LLaVA-Med 在部分指標上領先於業界其他先進模型。
本文為品玩授權刊登,原文標題為「微軟推出 LLaVA-Med AI 模型,可對醫學病理案例進行分析」
