Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Are Large Vision Language Models Truly Grounded in Medical Images? Evidence from Italian Clinical Visual Question Answering

Created by
  • Haebom
Category
Empty

저자

Federico Felizzi, Olivia Riccomi, Michele Ferramola, Francesco Andrea Causio, Manuel Del Medico, Vittorio De Vita, Lorenzo De Mori, Alessandra Piscitelli, Pietro Eric Risuleo, Bianca Destro Castaniti, Antonio Cristiano, Alessia Longo, Luigi De Angelis, Mariapia Vassalli, Marcello Di Pumpo

개요

본 연구는 대규모 시각-언어 모델(VLM)이 이탈리아 의료 관련 질문에 답할 때 시각 정보를 얼마나 실제로 활용하는지 조사했다. Claude Sonnet 4.5, GPT-4o, GPT-5-mini, Gemini 2.0 flash exp. 총 4개의 최신 모델을 대상으로, 유럽MedQA 이탈리아 데이터셋의 60개 질문에 대한 답변을 테스트했다. 시각 정보 의존성을 파악하기 위해, 정답 이미지를 빈 이미지로 대체하여 실험을 진행했다.

시사점, 한계점

시사점:
GPT-4o가 가장 강력한 시각적 근거 능력을 보여주었으며, 정확도 하락폭이 27.9%로 가장 컸다.
GPT-5-mini, Gemini, Claude는 시각 정보 의존도가 상대적으로 낮았으며, 정확도 하락폭은 각각 8.5%, 2.4%, 5.6%였다.
모델들은 빈 이미지를 사용했음에도 불구하고, 자신감 있는 추론 설명을 제시하여, 텍스트 기반 지름길 활용 가능성을 시사했다.
모델의 견고성 및 임상 적용 전 엄격한 평가의 필요성을 강조한다.
한계점:
특정 데이터셋 및 질문 유형에 국한된 실험으로, 일반화된 결론을 내리기에는 제한적일 수 있다.
모델의 시각 정보 활용 방식에 대한 심층적인 분석 및 추가적인 평가 방법론이 필요하다.
👍