Sign In

Text-driven Adaptation of Foundation Models for Few-shot Surgical Workflow Analysis

Created by
  • Haebom
Category
Empty

저자

Tingxuan Chen, Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy

개요

Surg-FTDA는 수술 워크플로 분석을 위한 새로운 방법으로, 대규모의 어노테이션된 데이터셋에 대한 의존성을 최소화하여 비용과 확장성 문제를 해결합니다. Few-shot selection-based modality alignment을 통해 소량의 이미지와 텍스트 임베딩을 정렬하고, Text-driven adaptation을 통해 텍스트 데이터만을 사용하여 디코더를 학습시킵니다. 이를 통해 이미지-텍스트 쌍 없이도 이미지 관련 작업을 수행할 수 있으며, 이미지 캡셔닝, triplet recognition, phase recognition 등 다양한 작업에서 기존 방법들을 능가하는 성능을 보입니다. GitHub에 코드와 데이터셋을 공개할 예정입니다.

시사점, 한계점

시사점:
대규모 어노테이션 데이터셋에 대한 의존성 감소: 비용 효율적이고 확장 가능한 수술 워크플로 분석 가능.
다양한 downstream task에 적용 가능: 이미지 캡셔닝, triplet recognition, phase recognition 등 다양한 작업 수행.
Few-shot learning 기반: 적은 양의 데이터로 높은 성능 달성.
텍스트 데이터 활용: 이미지-텍스트 쌍 데이터 부족 문제 해결.
한계점:
제한된 데이터셋 평가: 제공된 데이터셋의 일반화 성능에 대한 추가적인 검증 필요.
알고리즘의 복잡성: Few-shot selection과 text-driven adaptation의 복잡성으로 인한 계산 비용 증가 가능성.
실제 수술 환경 적용의 어려움: 실제 수술 환경의 복잡성과 변수 고려 필요.
👍