본 논문은 의료 영상과 텍스트를 함께 처리하는 대규모 시각-언어 모델(Med-LVLM)의 사실성 문제를 해결하기 위해, 의학적 관련성을 고려한 다중 모드 선호도 최적화 기법인 MMedPO를 제안합니다. 기존 선호도 최적화 방법들이 임상적 관련성이 낮은 데이터로 인해 효과가 제한적이었던 점을 개선하고자, MMedPO는 (1) 의학적으로 부정확한 응답을 생성하는 방식으로 주입된 그럴듯한 환각, (2) 병변 영역을 훼손하여 시각적 이해를 방해하는 병변 노이즈를 활용하여 다중 모드 선호도 데이터를 구성합니다. 여러 Med-LLM과 시각적 도구를 이용하여 각 샘플의 임상적 관련성 점수를 계산하고, 이를 선호도 최적화 과정에 가중치로 통합하여 효과적인 정렬을 달성합니다. 실험 결과, MMedPO는 Med-VQA 및 보고서 생성 작업에서 기존 방법 대비 평균 14.2% 및 51.7%의 상당한 사실 정확도 향상을 보였습니다. 코드는 https://github.com/aiming-lab/MMedPO 에서 확인할 수 있습니다.