Surg-FTDA는 수술 워크플로 분석을 위한 새로운 방법으로, 대규모의 어노테이션된 데이터셋에 대한 의존성을 최소화하여 비용과 확장성 문제를 해결합니다. Few-shot selection-based modality alignment을 통해 소량의 이미지와 텍스트 임베딩을 정렬하고, Text-driven adaptation을 통해 텍스트 데이터만을 사용하여 디코더를 학습시킵니다. 이를 통해 이미지-텍스트 쌍 없이도 이미지 관련 작업을 수행할 수 있으며, 이미지 캡셔닝, triplet recognition, phase recognition 등 다양한 작업에서 기존 방법들을 능가하는 성능을 보입니다. GitHub에 코드와 데이터셋을 공개할 예정입니다.