본 논문은 수술 절차 내 다양한 작업(예: 복강경 담낭절제술에서 단계 인식 또는 안전의 중요한 관점 평가)을 처리하기 위해 통합된 다중 작업 프레임워크인 MML-SurgAdapt를 제시합니다. Vision-Language Model(VLM), 특히 CLIP을 사용하여 자연어 감독을 통해 다양한 수술 작업을 처리합니다. 부분 주석 문제를 해결하기 위해 Single Positive Multi-Label (SPML) 학습을 적용하여 여러 수술 작업의 데이터를 통합하고 불완전하거나 잡음이 많은 주석에도 효과적인 학습을 가능하게 합니다. Cholec80, Endoscapes2023, CholecT50 데이터셋을 사용하여 실험한 결과, MML-SurgAdapt는 작업별 벤치마크와 비슷한 성능을 보이며 잡음이 많은 주석을 처리하는 이점을 제공합니다. 또한 기존 SPML 프레임워크보다 성능이 우수하며, 필요한 레이블을 23% 줄여 주석 작업 부담을 크게 줄입니다. 본 연구는 여러 수술 작업의 데이터를 통합하는 SPML의 첫 번째 적용 사례이며, 수술 컴퓨터 비전에서 다중 작업 학습을 위한 새로운 일반화 가능한 솔루션을 제시합니다.