SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model
Created by
Haebom
저자
Guankun Wang, Junyi Wang, Wenjin Mo, Long Bai, Kun Yuan, Ming Hu, Jinlin Wu, Junjun He, Yiming Huang, Nicolas Padoy, Zhen Lei, Hongbin Liu, Nassir Navab, Hongliang Ren
개요
본 논문은 로봇 수술에서 수술 장면 이해를 위한 새로운 비디오 언어 모델인 SurgVidLM을 제안합니다. 기존의 다중 모달 대규모 언어 모델(MLLM)이 수술 장면에 대한 전반적인 이해에 집중하는 것과 달리, SurgVidLM은 수술 절차의 세부적인 과정 분석을 위한 정교한 비디오 추론에 초점을 맞춥니다. 이를 위해 31,000개 이상의 비디오-설명 쌍으로 구성된 대규모 데이터셋 SVU-31K를 구축하고, 전반적인 절차적 맥락을 추출하는 1단계와 시간적 단서에 따라 고주파수의 국소 분석을 수행하는 2단계로 구성된 StageFocus 메커니즘을 도입했습니다. 또한 저주파수 및 고주파수 시각 토큰을 효과적으로 통합하는 다중 주파수 융합 어텐션을 개발하여 중요한 작업 관련 세부 정보를 보존합니다. 실험 결과, SurgVidLM은 유사한 매개변수 규모의 최첨단 Vid-LLM을 상당히 능가하는 성능을 보였습니다. 코드와 데이터셋은 곧 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
로봇 수술의 수술 장면 이해를 위한 새로운 비디오 언어 모델 SurgVidLM 제시
◦
수술 절차의 전반적인 이해와 세부적인 분석 모두 가능하도록 설계
◦
대규모 수술 비디오 데이터셋 SVU-31K 구축
◦
StageFocus 메커니즘과 다중 주파수 융합 어텐션을 통해 정교한 비디오 추론 성능 향상
◦
최첨단 Vid-LLM 대비 우수한 성능 검증
◦
코드와 데이터셋 공개 예정
•
한계점:
◦
현재 코드와 데이터셋이 공개되지 않음.
◦
실제 수술 환경에서의 일반화 성능에 대한 추가적인 검증 필요.
◦
다양한 수술 유형 및 환경에 대한 모델의 적용성 평가 필요.
◦
StageFocus 메커니즘 및 다중 주파수 융합 어텐션의 세부적인 작동 원리 및 한계에 대한 추가적인 설명 필요.