HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition
Created by
Haebom
Category
Empty
저자
Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy
개요
본 논문은 외과 수술 영상에 대한 일반화된 모델을 개발하기 위해 자연어를 광범위한 감독 소스로 활용하는 HecVL이라는 새로운 계층적 비디오-언어 사전 학습 방법을 제시합니다. 수술 강의 비디오와 세 가지 계층(클립 단위의 음성 텍스트, 단계 단위의 개념적 텍스트 요약, 비디오 단위의 수술 절차에 대한 개요 텍스트)의 텍스트를 짝지어 계층적 비디오-텍스트 데이터셋을 구성합니다. 그 후, 단일 모델을 사용하여 세 가지 비디오-텍스트 계층에 대해 별도의 임베딩 공간을 학습하는 새로운 세밀-조잡 대조 학습 프레임워크를 제안합니다. 서로 다른 계층 수준의 임베딩 공간을 분리함으로써, 학습된 다중 모드 표현은 동일한 모델에서 단기 및 장기 수술 개념을 인코딩합니다. 주입된 텍스트 의미론 덕분에, HecVL 접근 방식은 인간의 주석 없이 제로샷 수술 단계 인식을 가능하게 함을 보여줍니다. 또한 수술 단계 인식을 위한 동일한 HecVL 모델을 서로 다른 수술 절차와 의료 센터에 전이할 수 있음을 보여줍니다. 코드는 https://github.com/CAMMA-public/SurgVLP 에서 이용 가능합니다.