Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Diagnosis: Evaluating Multimodal LLMs for Pathology Localization in Chest Radiographs

Created by
  • Haebom
Category
Empty

저자

Advait Gosai, Arun Kavishwar, Stephanie L. McNamara, Soujanya Samineni, Renato Umeton, Alexander Chowdhury, William Lotter

개요

본 논문은 최첨단 대규모 언어 모델(LLM)과 멀티모달 LLM(MLLM)의 의료 영상 병변 위치 식별 능력을 평가한다. 흉부 방사선 사진에서 병변 위치를 파악하는 능력을 평가하기 위해 GPT-4, GPT-5, MedGemma를 CheXlocalize 데이터셋을 사용하여 테스트했으며, 공간 그리드를 활용하고 좌표 기반 예측을 유도하는 프롬프팅 파이프라인을 사용했다.

시사점, 한계점

시사점:
GPT-5는 다른 모델에 비해 높은 정확도를 보였으며, 해부학적으로 타당한 영역에 위치를 예측하는 경향을 보였다.
GPT-4는 특정 해부학적 위치에 고정된 병변에 대해 더 나은 성능을 보였다.
MedGemma는 몇 샷 프롬프팅을 통해 성능 향상을 보였다.
MLLM은 의료 영상 분석에 잠재력을 보여주지만, 특정 작업 도구와의 통합이 필요하다.
한계점:
모든 MLLM의 위치 식별 정확도는 전문 방사선과 의사 및 작업별 CNN 모델보다 낮았다.
GPT-5의 예측 정확도는 여전히 제한적이며, 정밀한 위치 파악에 어려움을 겪었다.
GPT-4는 공간적으로 가변적인 병변과 해부학적으로 부적절한 예측을 하는 경우가 있었다.
MedGemma는 전반적으로 가장 낮은 성능을 보였다.
👍