Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

Created by
  • Haebom

저자

Kangyu Zhu, Peng Xia, Yun Li, Hongtu Zhu, Sheng Wang, Huaxiu Yao

개요

본 논문은 의료 영상과 텍스트를 함께 처리하는 대규모 시각 언어 모델(Med-LVLMs)의 사실성 문제를 해결하기 위해 새로운 다중 모달 의료 선호도 최적화 방법인 MMedPO를 제안합니다. Med-LVLMs는 모달 정렬 문제로 인해 의료 이미지의 정보와 모순되는 환각을 생성하는데, 기존의 선호도 최적화 방법은 임상적 관련성이 낮은 데이터를 사용하여 효과가 제한적이었습니다. MMedPO는 임상적 관련성이 높은 다중 모달 선호도 데이터를 생성하기 위해, (1) 의학적으로 부정확한 응답을 생성하는 환각 주입 및 (2) 병변 영역의 노이즈를 통한 시각적 이해 방해라는 두 가지 유형의 비선호도를 도입합니다. 여러 Med-LLMs 및 시각적 도구를 이용하여 각 샘플의 임상적 관련성 점수를 계산하고, 이를 선호도 최적화 과정에 가중치로 통합하여 효과적인 모달 정렬을 달성합니다. 실험 결과, MMedPO는 기존 방법 대비 Med-VQA 및 보고서 생성 작업에서 각각 평균 14.2% 및 51.7%의 성능 향상을 보이며 Med-LVLMs의 사실 정확도를 크게 향상시켰습니다. 코드는 https://github.com/aiming-lab/MMedPO 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
의료 영상과 텍스트의 모달 정렬 문제를 해결하여 Med-LVLMs의 사실 정확도를 향상시키는 새로운 방법 제시.
임상적 관련성을 고려한 다중 모달 선호도 데이터 생성 및 활용으로 기존 선호도 최적화 방법의 한계 극복.
Med-VQA 및 보고서 생성 작업에서 기존 방법 대비 상당한 성능 향상을 달성.
공개된 코드를 통해 재현성 및 추가 연구 가능성 제공.
한계점:
제안된 방법의 일반화 성능에 대한 추가 연구 필요.
다양한 의료 영상 유형 및 질병에 대한 성능 평가 필요.
임상적 관련성 점수 계산에 사용된 Med-LLMs 및 시각적 도구의 신뢰성 및 편향성 검토 필요.
GPT-4o와 같은 대규모 언어 모델에 대한 의존도가 높을 수 있음.
👍