본 논문은 의료 영상과 텍스트를 함께 처리하는 대규모 시각-언어 모델(Med-LVLM)의 사실성 문제를 해결하기 위해 새로운 다중 모드 의료 선호도 최적화 방법인 MMedPO를 제안합니다. 기존 선호도 최적화 방법들이 임상적 관련성을 충분히 고려하지 못해 효과가 떨어지는 문제를 해결하고자, MMedPO는 의학적으로 부정확한 응답을 생성하는 방식(plausible hallucinations)과 병변 영역을 왜곡하는 방식(lesion region neglect)으로 두 가지 유형의 비선호 데이터를 생성합니다. 여러 Med-LLM과 시각적 도구를 이용하여 각 샘플의 임상적 관련성 점수를 계산하고, 이를 선호도 최적화 과정의 가중치로 활용하여 모델의 모달 정렬을 향상시킵니다. 실험 결과, MMedPO는 기존 방법보다 Med-VQA 및 보고서 생성 작업에서 각각 평균 14.2%와 51.7%의 성능 향상을 보이며, Med-LVLM의 사실 정확도를 크게 높였습니다. 코드는 https://github.com/aiming-lab/MMedPO 에서 확인할 수 있습니다.