본 논문은 위장된 물체가 환경과 매끄럽게 혼합되는 비디오 위장 물체 분할(VCOS) 문제를 해결하기 위해, SAM2를 기반으로 한 Camouflaged SAM2(CamSAM2)를 제안합니다. CamSAM2는 SAM2의 매개변수를 수정하지 않고, 'decamouflaged token'을 도입하여 특징 조정의 유연성을 제공합니다. 또한, 현재 프레임과 이전 프레임의 고해상도 특징을 활용하기 위해 암시적 객체 인식 융합(IOF) 및 명시적 객체 인식 융합(EOF) 모듈을 제안합니다. 고품질 이전 프레임 특징을 사용하여 객체 원형을 추출하고 기억하는 객체 원형 생성(OPG) 또한 제시합니다. 실험 결과, CamSAM2는 SAM2에 비해 세 가지 VCOS 데이터셋에서 성능이 크게 향상되었음을 보여줍니다. 특히, MoCA-Mask 데이터셋에서 클릭 프롬프트를 사용했을 때 12.2 mDice 향상, SUN-SEG-Hard 데이터셋에서 마스크 프롬프트를 사용했을 때 19.6 mDice 향상을 달성했습니다. Hiera-T를 백본으로 사용하였으며, 코드는 github.com/zhoustan/CamSAM2 에서 공개될 예정입니다.