Endo-CLIP은 대장내시경 이미지 분석 향상을 위해 이미지-텍스트 대장내시경 기록에 대한 사전 훈련을 활용하는 새로운 자기 지도 학습 프레임워크입니다. 비정보 배경 이미지, 복잡한 의학 용어, 모호한 다발 병변 설명 등의 과제를 해결하기 위해, 배경 프레임 제거, 대규모 언어 모델을 활용한 세분화된 대조 학습을 위한 임상 속성 추출, 환자 수준의 교차 주의를 활용한 다발 용종 모호성 해결 등 세 단계(정제, 조정, 통합) 프레임워크를 사용합니다. 실험 결과, Endo-CLIP은 제로샷 및 몇몇 샷 용종 검출 및 분류에서 최첨단 사전 훈련 방법을 능가하여 더 정확하고 임상적으로 관련성이 높은 내시경 분석의 길을 열었습니다.