Med-RewardBenchは、医療アプリケーションにおけるマルチモード大規模言語モデル(MLLM)の補償モデルと評価者を評価するために特別に設計された最初のベンチマークです。 13の機関系と8つの臨床部門を組み合わせた1,026の専門家の注釈付きのマルチモードデータセットを特徴とし、6つの臨床的に重要な次元にわたって高品質の評価データを保証する厳格な3段階プロセスを経ます。既存のベンチマークが一般的なMLLM機能に焦点を当てたり、モデルを問題解決者として評価するのとは異なり、Med-RewardBenchは診断精度や臨床的関連性などの重要な評価レベルを考慮しています。本研究では、オープンソース、独占、医療専用モデルを含む32の最先端MLLMを評価し、専門家の判断との整列にかなりの困難を明らかにしました。また、微調整により性能を大幅に向上させる基準モデルを開発した。