Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Are Large Vision Language Models Truly Grounded in Medical Images? Evidence from Italian Clinical Visual Question Answering

Created by
  • Haebom
Category
Empty

저자

Federico Felizzi, Olivia Riccomi, Michele Ferramola, Francesco Andrea Causio, Manuel Del Medico, Vittorio De Vita, Lorenzo De Mori, Alessandra Piscitelli Pietro Eric Risuleo, Bianca Destro Castaniti, Antonio Cristiano Alessia Longo, Luigi De Angelis, Mariapia Vassalli, Marcello Di Pumpo

개요

본 논문은 대규모 시각-언어 모델(VLMs)이 의료 영상 질의 응답 벤치마크에서 뛰어난 성능을 보이지만, 시각 정보에 대한 의존성이 불분명하다는 점에 주목한다. 이탈리아 의료 질문에 대한 답변에서 최첨단 모델들이 진정한 시각적 근거를 나타내는지 조사하기 위해, Claude Sonnet 4.5, GPT-4o, GPT-5-mini, Gemini 2.0 flash exp의 네 가지 모델을 테스트했다. EuropeMedQA 이탈리아 데이터셋의 60개 질문에 대해, 올바른 의료 이미지를 빈 자리 표시자로 대체하여 모델이 시각 및 텍스트 정보를 실제로 통합하는지 확인했다. 결과는 모델별로 시각적 의존성에 큰 차이를 보였으며, GPT-4o가 가장 강력한 시각적 근거를 보인 반면, GPT-5-mini, Gemini, Claude는 시각적 정보를 덜 활용했다. 모델이 생성한 추론 분석 결과, 모든 모델에서 조작된 시각적 해석에 대해 확신에 찬 설명을 제공하여 텍스트 기반 지름길과 진정한 시각적 분석 간의 의존도 차이를 시사했다.

시사점, 한계점

시사점:
의료 분야 VLMs의 시각적 근거에 대한 모델별 차이점을 발견했다.
GPT-4o가 가장 강력한 시각적 근거를 보였다.
모델들은 시각적 정보 없이 텍스트 기반 추론에 의존할 수 있음을 확인했다.
임상 적용 전 엄격한 평가의 필요성을 강조한다.
한계점:
테스트에 사용된 데이터셋 및 질문의 제한된 범위.
모델의 정확한 시각 정보 활용 메커니즘에 대한 추가 연구 필요.
모델 간의 일반화된 시각적 근거 능력 비교를 위한 더 넓은 범위의 데이터셋 필요.
👍