Beyond Diagnosis: Evaluating Multimodal LLMs for Pathology Localization in Chest Radiographs
Created by
Haebom
Category
Empty
저자
Advait Gosai, Arun Kavishwar, Stephanie L. McNamara, Soujanya Samineni, Renato Umeton, Alexander Chowdhury, William Lotter
개요
본 논문은 최첨단 대규모 언어 모델(LLM)과 멀티모달 LLM(MLLM)의 의료 영상 병변 위치 식별 능력을 평가한다. 흉부 방사선 사진에서 병변 위치를 파악하는 능력을 평가하기 위해 GPT-4, GPT-5, MedGemma를 CheXlocalize 데이터셋을 사용하여 테스트했으며, 공간 그리드를 활용하고 좌표 기반 예측을 유도하는 프롬프팅 파이프라인을 사용했다.
시사점, 한계점
•
시사점:
◦
GPT-5는 다른 모델에 비해 높은 정확도를 보였으며, 해부학적으로 타당한 영역에 위치를 예측하는 경향을 보였다.
◦
GPT-4는 특정 해부학적 위치에 고정된 병변에 대해 더 나은 성능을 보였다.
◦
MedGemma는 몇 샷 프롬프팅을 통해 성능 향상을 보였다.
◦
MLLM은 의료 영상 분석에 잠재력을 보여주지만, 특정 작업 도구와의 통합이 필요하다.
•
한계점:
◦
모든 MLLM의 위치 식별 정확도는 전문 방사선과 의사 및 작업별 CNN 모델보다 낮았다.