Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge

Created by
  • Haebom

作者

Zihan Li, Diping Song, Zefeng Yang, Deming Wang, Fei Li, Xiulan Zhang, Paul E. Kinahan, Yu Qiao

概要

本論文は、医療アクセスが低い地域で眼科診断を改善するために、臨床知識を強化した新しい視覚言語ベースのモデルであるVisionUniteを提示します。 VisionUniteは124万の画像-テキストペアで事前訓練され、29万以上の高品質眼底画像-テキストペアと89万以上の模擬擬似患者会話データを含むMMFundusデータセットを使用してさらに微調整されました。実験の結果、VisionUniteはGPT-4VやGemini Proなどの従来の生成ベースのモデルよりも優れており、初級眼科医と同程度の診断能力を示した。様々な臨床シナリオ(オープンマルチ疾患診断、臨床説明、患者相互作用など)で優れた性能を示し、初期眼科疾患スクリーニング検査ツールおよび眼科医教育支援ツールとして利用することができる。結論として、VisionUniteは診断、医学教育、病気のメカニズムの理解に広範な影響を与える眼科分野の重要な進歩を意味します。ソースコードはGitHubで公開されています。

Takeaways、Limitations

Takeaways:
医療アクセシビリティが低い地域で眼科疾患の診断精度の向上に寄与することができる。
初級眼科医の診断能力向上や教育効率の向上に活用可能。
様々な臨床シナリオに適用可能な多目的ツールとして利用することができる。
まれな眼科疾患の理解を促進することができます。
Limitations:
モデルの性能評価に使用されるデータセットの一般化の可能性をさらに検証する必要があります。
実際の臨床環境での性能検証と安全性を確保するためのさらなる研究が必要です。
モデルの誤差と偏向の分析と解決策の準備が必要です。
モデルの意思決定プロセスの説明可能性の向上が必要です。
👍