Med-RewardBench는 의료 응용 분야에서 다중 모드 대규모 언어 모델(MLLM)의 보상 모델과 평가자를 평가하기 위해 특별히 설계된 최초의 벤치마크입니다. 13개의 기관계와 8개의 임상 부서를 아우르는 1,026개의 전문가 주석이 달린 다중 모드 데이터셋을 특징으로 하며, 6가지 임상적으로 중요한 차원에 걸쳐 고품질 평가 데이터를 보장하는 엄격한 3단계 프로세스를 거칩니다. 기존 벤치마크들이 일반적인 MLLM 기능에 초점을 맞추거나 모델을 문제 해결자로 평가하는 것과 달리, Med-RewardBench는 진단 정확도와 임상적 관련성과 같은 필수적인 평가 차원을 고려합니다. 본 연구에서는 오픈 소스, 독점, 의료 전용 모델을 포함한 32개의 최첨단 MLLM을 평가하여 전문가 판단과의 정렬에서 상당한 어려움을 드러냅니다. 또한, 미세 조정을 통해 성능을 크게 향상시키는 기준 모델을 개발했습니다.
시사점, 한계점
•
시사점: 의료 분야 MLLM의 보상 모델 및 평가자 평가를 위한 최초의 전문화된 벤치마크 제공. 다양한 MLLM의 성능 및 한계점을 실증적으로 제시. 미세 조정을 통한 성능 향상 가능성 제시. 임상적 관련성 및 진단 정확도 고려한 평가 기준 제시.
•
한계점: Med-RewardBench의 데이터셋은 특정 병원 또는 지역에 편향될 가능성 존재. 평가 기준의 객관성 및 일반화 가능성에 대한 추가 연구 필요. 더욱 다양한 MLLM 모델에 대한 평가 확장 필요. 장기적인 임상적 유용성에 대한 추가 검증 필요.