Sign In

MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Qiao Yan, Yuchen Yuan, Xiaowei Hu, Yihan Wang, Jiaqi Xu, Jinpeng Li, Chi-Wing Fu, Pheng-Ann Heng

개요

본 논문은 의료 분야에서 활용되는 비전-언어 모델(VLMs)의 환각(hallucination) 문제를 해결하기 위해 대규모 벤치마크 MedHallTune을 제안합니다. MedHallTune은 10만 개 이상의 이미지와 100만 개 이상의 instruction pair로 구성되며, 환각 및 비환각 샘플 각각에 대한 정답 레이블을 포함합니다. 다양한 의료 및 일반 VLMs에 대한 종합적인 평가를 수행하여 임상 정확도, 관련성, 세부 수준, 위험 수준 등의 주요 지표를 평가합니다. MedHallTune을 사용한 미세 조정(fine-tuning)을 통해 여러 기존 모델의 환각 관리 능력을 향상시키고, 후속 시각적 질의응답(VQA) 작업에서 제로샷 성능을 향상시켜 실제 의료 응용 분야에서 더욱 신뢰할 수 있게 만드는 것을 실험적으로 보여줍니다. 코드와 데이터셋은 공개될 예정입니다.

시사점, 한계점

시사점:
의료 VLM의 환각 문제 평가 및 완화를 위한 대규모 벤치마크 MedHallTune 제시
MedHallTune을 이용한 미세 조정을 통해 기존 모델의 환각 관리 능력 및 제로샷 VQA 성능 향상 확인
더욱 신뢰할 수 있는 의료 VLM 개발에 기여
한계점:
MedHallTune의 일반화 성능 및 다양한 의료 영역에 대한 적용성에 대한 추가 연구 필요
환각의 정의 및 측정에 대한 주관적인 요소 존재 가능성
현재는 공개되지 않은 코드 및 데이터셋의 실제 활용성 및 품질에 대한 검증 필요
👍