Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

Created by
  • Haebom

作者

Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

概要

医療大規模言語モデルの正確な診断は、知識のギャップと幻覚によって妨げられる。検索とツールの強化方法が役に立ちますが、外部知識の弱い活用とフィードバック推論のトレーサビリティが低下し、その影響が制限されます。これらの問題を解決するために、この研究は強化学習(RL)を介してエンドツーエンドで学習されたエージェントRAGシステムであるDeep-DxSearchを提供します。このシステムは、追跡可能な検索増強推論を医療診断に適用する。 Deep-DxSearchは、患者の記録と信頼できる医療知識ソースを含む大規模な医療検索コーパスを構成し、診断シナリオ全体で検索認識の推論をサポートします。 LLM をコアエージェントとし、検索コーパスを環境に整理し、フォーマット、検索、推論構造、診断精度に対するカスタマイズされた補償を使用して、大規模なデータを通じて RL にエージェント RAG ポリシーを進めることが重要です。実験は、エンドツーエンドエージェントRLトレーニングフレームワークが複数のデータセンターでプロンプトエンジニアリングとトレーニングなしRAGアプローチを一貫して超えていることを示しています。トレーニング後、Deep-DxSearchはGPT-4o、DeepSeek-R1などの特定の医療フレームワークなどの強力な診断基準を上回り、分布内および分布外の設定で一般的な疾患とまれな疾患診断の両方で診断精度が大幅に向上しました。さらに、補償設計と検索コーパス構成要素のアブレーション研究は、伝統的な実装と比較してアプローチの一意性と効果を強調する重要な役割を確認しました。最後に、ケーススタディと解釈可能性分析は、Deep-DxSearchの診断方針の改善を強調し、パフォーマンスの向上に関する詳細な洞察を提供し、臨床医がより信頼性が高く正確な予備診断を提供するのに役立ちます。

Takeaways、Limitations

Takeaways:
エンドツーエンド強化学習ベースのエージェントRAGシステムにより、医療診断の精度が大幅に向上しました。
GPT-4o、DeepSeek-R1など、既存の最先端モデルを凌駕する性能を見せました。
分布内と分布外の両方の設定で優れた性能を示し、一般的な疾患およびまれな疾患の診断に有効であることが証明された。
報酬設計と検索コーパスの重要性を確認し、今後の研究方向を提示した。
ケーススタディと解釈可能性分析により、モデルの意思決定プロセスを理解するのに役立ちます。
Limitations:
現在公開されている情報だけでは、Deep-DxSearchのトレーニングデータサイズ、トレーニング時間、計算リソース消費量などの具体的な情報が不足しています。
実際の臨床環境での性能評価と検証がさらに必要である。
モデルの幻覚問題の解決策と追加の改善の余地が存在する可能性があります。
大規模な医療データのアクセシビリティとプライバシー問題の考慮が必要です。
👍