Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging

Created by
  • Haebom

저자

Siyuan Dai, Kai Ye, Guodong Liu, Haoteng Tang, Liang Zhan

개요

본 논문은 의료 영상 분할에서 기존 U-Net 및 Transformer 기반 방법의 한계를 극복하기 위해, 대규모 언어 모델(LLM)을 활용한 새로운 Vision-LLM union framework을 제안합니다. 기존의 다중 모달 학습은 비용과 시간이 많이 드는 쌍으로 된 시각-언어 데이터셋 수집이 필요하지만, 본 연구는 동결된 LLM을 이용하여 의료 영상(예: T1-w, T2-w MRI 및 CT)을 기반으로 영상 판독 및 보고서 생성 과정을 모방하여 zero-shot 방식으로 정확한 텍스트 지시문을 생성합니다. LLM의 우수한 의미 이해 능력과 풍부한 지식을 활용하여 다양한 모달리티에서 특징을 추출하고 이를 통합하여 최종 진단에 활용합니다. 생성된 텍스트 지시문을 바탕으로, 사전에 수집된 시각-언어 데이터셋 없이도 다중 모달 분할을 수행하는 것이 가능합니다. 실험 결과, 제안된 방법이 기존 방법들보다 우수한 성능을 보임을 확인했습니다.

시사점, 한계점

시사점:
LLM을 활용하여 의료 영상 분할에 필요한 텍스트 지시문을 zero-shot 방식으로 생성함으로써, 비용과 시간이 많이 드는 데이터셋 수집 과정을 생략할 수 있습니다.
다중 모달리티 정보(영상 및 텍스트)를 효과적으로 통합하여 의료 영상 분할의 정확도를 향상시킬 수 있습니다.
실제 의료 진단 과정을 보다 잘 반영하는 모델을 제시합니다.
한계점:
LLM의 성능에 의존적일 수 있으며, LLM의 오류가 최종 결과에 영향을 미칠 수 있습니다.
다양한 유형의 의료 영상 및 질병에 대한 일반화 성능 평가가 추가적으로 필요합니다.
제안된 방법의 임상적 유용성을 검증하기 위한 추가적인 연구가 필요합니다.
👍