Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

XGeM: A Multi-Prompt Foundation Model for Multimodal Medical Data Generation

Created by
  • Haebom

作者

Daniele Molino, Francesco Di Feola, Eliodoro Faiella, Deborah Fazzini, Domiziana Santucci, Linlin Shen, Valerio Guarrasi, Paolo Soda

概要

XGeMは、医療映像における人工知能の活用の難しさであるデータ不足、プライバシー問題、強力なマルチモーダル統合の必要性を解決するために提案された67億パラメータのマルチモーダル生成モデルです。対照学習を介して共有潜在スペースを構成し、任意の入力モダリティサブセットを条件とする新しいマルチプロンプトトレーニング戦略を導入することで、さまざまなランダムモダリティ間の合成をサポートします。 MIMIC-CXRデータセットを使用して競合モデルと比較評価し、専門の放射線科医を対象とした視覚チューリングテストを通じて、生成データの現実性と臨床的関連性を評価しました。データの匿名化、クラスの不均衡、データの不足などの医療データの課題を解決するために利用できることを示しています。

Takeaways、Limitations

Takeaways:
さまざまな医療データモダリティ間の柔軟で任意の相互変換をサポートする67億パラメータの強力なマルチモーダル生成モデルを提示します。
対照学習とマルチプロンプトトレーニング戦略により、臨床的一貫性を維持し、マルチモダリティを統合的に作成します。
医療データの匿名化、クラスの不均衡、データ不足の問題解決に貢献
専門家評価による生成データの現実性と臨床的妥当性の検証
Limitations:
本稿では具体的なLimitationsを明示的に述べていない。今後の研究を通じて、モデルの性能向上と一般化能力の向上が必要
特定のデータセット(MIMIC-CXR)への依存が存在する可能性。他のデータセットへの一般化パフォーマンス検証が必要です。
67億パラメータの大きなモデルサイズによるコンピューティングリソースの消費とアクセシビリティの問題。
👍