본 논문은 대장내시경 영상에서 용종의 조기 검출, 정확한 분할, 분류 및 추적을 위한 새로운 기반 모델인 PolypSegTrack을 제안합니다. 기존의 딥러닝 기반 방법들이 특정 작업에 대한 미세 조정이 필요하거나, 추적 기능이 부족하거나, 도메인 특정 사전 훈련에 의존하는 것과 달리, PolypSegTrack은 용종 검출, 분할, 분류 및 비지도 추적을 통합적으로 수행합니다. 조건부 마스크 손실을 활용하여 픽셀 단위 분할 마스크 또는 바운딩 박스 주석이 있는 데이터셋에서 유연한 훈련을 가능하게 하며, 작업별 미세 조정을 피합니다. 비지도 추적 모듈은 객체 쿼리를 사용하여 프레임 간 용종 인스턴스를 안정적으로 연결하며, 휴리스틱에 의존하지 않습니다. 자연 이미지에서 비지도 방식으로 사전 훈련된 강력한 비전 기반 모델 백본을 활용하여 도메인 특정 사전 훈련의 필요성을 제거합니다. 여러 용종 벤치마크에 대한 광범위한 실험을 통해 기존 최첨단 방법보다 검출, 분할, 분류 및 추적 성능이 크게 향상됨을 보여줍니다.