Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation
Created by
Haebom
Category
Empty
저자
Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy
개요
수술 영상-언어 사전 학습(VLP)은 지식 영역 간격과 다중 모달 데이터 부족으로 인해 고유한 과제에 직면합니다. 본 연구는 수술 강의 비디오에서의 텍스트 정보 손실 및 수술 VLP의 공간-시간적 과제를 해결하여 이 간격을 해소하는 것을 목표로 합니다. 이러한 문제를 해결하기 위해 계층적 지식 증강 접근 방식과 새로운 절차 인코딩 수술 지식 증강 비디오-언어 사전 학습(PeskaVLP) 프레임워크를 제안합니다. 지식 증강은 대규모 언어 모델(LLM)을 사용하여 수술 개념을 개선하고 풍부하게 하여 포괄적인 언어 감독을 제공하고 과적합 위험을 줄입니다. PeskaVLP는 언어 감독과 시각적 자기 감독을 결합하여 하드 네거티브 샘플을 구성하고 Dynamic Time Warping(DTW) 기반 손실 함수를 사용하여 교차 모달 절차 정렬을 효과적으로 이해합니다. 여러 공개 수술 장면 이해 및 교차 모달 검색 데이터 세트에 대한 광범위한 실험은 제안된 방법이 제로샷 전이 성능을 크게 향상시키고 수술 장면 이해의 추가 발전을 위한 일반적인 시각적 표현을 제공함을 보여줍니다. 코드는 https://github.com/CAMMA-public/SurgVLP 에서 이용 가능합니다.