Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning

Created by
  • Haebom

作者

Peng Xia, Jinglu Wang, Yibo Peng, Kaide Zeng, Xian Wu, Xiangru Tang, Hongtu Zhu, Yun Li, Shujie Liu, Yan Lu, Huaxiu Yao

概要

本論文は、様々な医療専門分野にわたって一般化するのが困難な既存の単一エージェント医療大規模ビジュアル言語モデル(Med-LVLM)の限界を克服するために、強化学習(RL)ベースのマルチエージェントフレームワークであるMMedAgent-RLを提案します。 MMedAgent-RLは、患者を適切な専門分野に割り当てる分類医と、複数の専門家の判断と独自の知識を統合して最終決定を下す主治医の2つのQwen2.5-VLベースのGPエージェントで構成されています。専門家の出力の不一致の問題を解決するために、医師に専門家の模倣と間違いの修正とのバランスを徐々に学習させるカリキュラム学習(CL)ベースのRL戦略を導入しました。 5つの医療VQAベンチマーク実験の結果、MMedAgent-RLはオープンソースと独自のMed-LVLMを上回り、人と同様の推論パターンを示しています。特に、地図学習ベースの微調整基準モデルと比較して、平均20.7%の性能向上を達成しました。

Takeaways、Limitations

Takeaways:
既存の単一エージェントMed-LVLMの限界を克服する強化学習ベースのマルチエージェントコラボレーションフレームワークの提示
動的かつ最適化されたマルチエキスパートコラボレーションによる医療画像解析と診断性能の向上
カリキュラム学習による専門家の意見の不一致問題解決と人間レベルの推論パターンの実施
従来モデルに比べ有意な性能向上(平均20.7%)達成
Limitations:
提案モデルの一般化性能の追加検証が必要
様々な医療データセットの実験結果の提示不足
実際の臨床環境を適用するための追加の研究が必要
Qwen2.5-VLモデルへの依存性による他の言語モデルの適用の難しさまたは制約の存在の可能性
👍