Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI

Created by
  • Haebom
Category
Empty

저자

Hugo Georgenthum, Cristian Cosentino, Fabrizio Marozzo, Pietro Lio

개요

본 논문은 수술 영상의 자동 요약을 위한 다중 모드 프레임워크를 제시합니다. 이는 컴퓨터 비전과 대규모 언어 모델의 발전을 활용하여 수술 절차 문서화, 수술 훈련 지원, 수술 후 분석을 향상시키는 것을 목표로 합니다. 세 단계로 구성된 이 방법은 먼저 시각적 변환기를 사용하여 수술 영상을 클립으로 나누고 프레임 수준에서 시각적 특징(도구, 조직, 장기, 수술 행위)을 추출합니다. 다음으로, 추출된 특징을 대규모 언어 모델을 통해 프레임 수준 자막으로 변환하고, ViViT 기반 인코더를 사용하여 포착한 시간적 특징과 결합하여 클립 수준 요약을 생성합니다. 마지막으로, 클립 수준 설명을 요약 작업에 맞게 조정된 전용 LLM을 사용하여 전체 수술 보고서로 집계합니다. CholecT50 데이터셋을 사용한 평가 결과, 도구 탐지 정확도 96%, 시간적 맥락 요약 BERT 점수 0.74를 달성했습니다.

시사점, 한계점

시사점:
수술 영상 자동 요약을 위한 효과적인 다중 모드 프레임워크 제시
컴퓨터 비전 및 대규모 언어 모델을 의료 분야에 성공적으로 적용한 사례
수술 보고서 작성을 위한 AI 지원 도구 발전에 기여
수술 절차 문서화, 수술 훈련, 수술 후 분석 개선 가능성 제시
한계점:
CholecT50 데이터셋만 사용한 제한적인 평가
실제 임상 환경에서의 일반화 성능에 대한 추가 검증 필요
사용된 LLM의 특징 및 한계에 대한 자세한 설명 부족
다양한 수술 유형 및 환경에 대한 적용성 검토 필요
👍