Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Agentic large language models improve retrieval-based radiology question answering

Created by
  • Haebom

作者

Sebastian Wind, Jeta Sopa, Daniel Truhn, Mahshad Lotfinia, Tri-Thien Nguyen, Keno Bressem, Lisa Adams, Mirabela Rusu, Harald K ostler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh

概要

本論文では、放射線質疑応答(QA)のためのエージェントベースのRAG(Retrieval-Augmented Generation)フレームワークを提案します。従来のシングルステップ検索方式の限界を克服するために、LLMは放射線学的質問を自律的に分解し、Radiopaediaで標的臨床証拠を繰り返し検索し、証拠ベースの応答を動的に生成するシステムを構築しました。さまざまなアーキテクチャ、パラメータスケール(0.5B〜670B以上)、学習パラダイム(汎用、推論最適化、臨床微調整)を持つ24のLLMを使用して、RSNA-RadioQAおよびExtendedQAデータセットの104のエキスパートレビューの質問で評価しました。エージェント検索は、ゼロショットプロンプトや従来のオンラインRAGと比較して平均診断精度を大幅に向上させました(73%対64%、P <0.001; 73%対68%、P <0.001)、特に中規模モデルで効果が高かった。また、幻覚を減らし、臨床的に関連する文脈を検索し、現実的な根拠を強化しました。臨床的に微調整されたモデルでも有意な改善が見られ、検索と微調整の相互補完的な役割を示唆しています。

Takeaways、Limitations

Takeaways:
エージェントベースのRAGフレームワークは、放射線学的QAの現実性と診断精度を向上させる可能性を示しています。
特に中規模LLMでは効果が大きく、小規模モデルの性能向上にも貢献しています。
検索と微調整の相互補完的な役割を確認しました。
幻覚の減少と臨床的に関連する情報の検索による現実的な根拠の強化に貢献します。
Limitations:
臨床的有用性を検証するためのさらなる研究が必要です。
非常に大きなモデル(200Bパラメータを超える)では、パフォーマンスの向上はわずかでした。
Radiopaediaデータに依存し、データ偏向の影響を考慮する必要があります。
👍