Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Ultrasound Report Generation with Multimodal Large Language Models for Standardized Texts

Created by
  • Haebom

저자

Peixuan Ge, Tongkun Su, Faqin Lv, Baoliang Zhao, Peng Zhang, Chi Hong Wong, Liang Yao, Yu Sun, Zenan Wang, Pak Kin Wong, Ying Hu

개요

본 논문은 초음파 영상의 다양성, 의사의 의존성, 표준화된 텍스트의 필요성으로 인해 어려운 초음파 보고서 생성을 위한 통합 프레임워크를 제안한다. X선이나 CT와 달리 초음파 영상은 일관된 데이터셋이 부족하여 자동화가 어렵다. 본 연구는 조각 기반 다국어 훈련을 통합하고 초음파 보고서의 표준화된 특성을 활용하여 다기관 및 다국어 초음파 보고서 생성을 위한 통합 프레임워크를 제시한다. 다양한 영상 데이터와 모듈식 텍스트 조각을 정렬하고 영어-중국어 이중 언어 데이터셋을 기반으로 기관 부위와 언어에 걸쳐 일관되고 임상적으로 정확한 텍스트 생성을 달성한다. Vision Transformer (ViT)의 선택적 해동을 통한 미세 조정을 통해 텍스트-이미지 정렬을 더욱 개선한다. 기존 최첨단 KMVE 방법과 비교하여 BLEU 점수는 약 2%, ROUGE-L은 약 3%, CIDEr은 약 15% 향상되었으며, 누락되거나 잘못된 콘텐츠와 같은 오류가 크게 감소되었다. 다기관 및 다국어 보고서 생성을 단일 확장 가능한 프레임워크로 통합함으로써 실제 임상 워크플로우에 대한 강력한 잠재력을 보여준다.

시사점, 한계점

시사점:
다기관 및 다국어 초음파 보고서 생성을 위한 통합 프레임워크 제시.
기존 최첨단 방법 대비 성능 향상 (BLEU, ROUGE-L, CIDEr).
누락 또는 잘못된 콘텐츠와 같은 오류 감소.
실제 임상 워크플로우 적용 가능성 제시.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 초음파 기기 및 영상 품질에 대한 로버스트니스 평가 필요.
사용된 데이터셋의 규모 및 다양성에 대한 한계.
임상적 유효성에 대한 추가 연구 필요.
👍