Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models

Created by
  • Haebom

作者

メイダン・ジン、Jipeng Zhang、Wenxuan Wang、Cheng-Yi Li、Wei-Chieh Fang、Hsin-Yu Wu、Haiqin Zhong、Wenting Chen、Linlin Shen

概要

Med-RewardBenchは、医療アプリケーションにおけるマルチモード大規模言語モデル(MLLM)の補償モデルと評価者を評価するために特別に設計された最初のベンチマークです。 13の機関系と8つの臨床部門を組み合わせた1,026の専門家の注釈付きのマルチモードデータセットを特徴とし、6つの臨床的に重要な次元にわたって高品質の評価データを保証する厳格な3段階プロセスを経ます。既存のベンチマークが一般的なMLLM機能に焦点を当てたり、モデルを問題解決者として評価するのとは異なり、Med-RewardBenchは診断精度や臨床的関連性などの重要な評価レベルを考慮しています。本研究では、オープンソース、独占、医療専用モデルを含む32の最先端MLLMを評価し、専門家の判断との整列にかなりの困難を明らかにしました。また、微調整により性能を大幅に向上させる基準モデルを開発した。

Takeaways、Limitations

Takeaways:医療分野MLLMの報酬モデルと評価者評価のための最初の専門化されたベンチマークを提供します。様々なMLLMの性能とLimitationsを実証的に提示します。微調整による性能向上の可能性の提示臨床的関連性と診断精度を考慮した評価基準の提示
Limitations: Med-RewardBenchのデータセットは、特定の病院または地域に偏っている可能性があります。評価基準の客観性と一般化の可能性に関するさらなる研究が必要より多様なMLLMモデルの評価拡張が必要長期的な臨床的有用性のさらなる検証が必要です。
👍