본 논문은 Meta AI에서 개발한 최첨단 비디오 객체 분할(VOS) 모델인 Segment-Anything Model 2 (SAM 2)의 동작 원리를 분석합니다. SAM 2가 깨끗한 데이터와 증강 데이터 모두에서 우수한 성능을 보이는 이유를 이해하기 위해, 다양한 복잡한 비디오 변환을 SAM 2 아키텍처에 적용하고 각 단계에서의 영향을 측정했습니다. 분석 결과, SAM 2의 각 단계가 복잡한 변환 노이즈를 필터링하고 관심 객체를 강조하는 역할을 수행한다는 것을 확인했습니다. 본 연구는 복잡한 변환 비디오 데이터셋 생성, SAM 2 아키텍처의 각 단계별 해석 분석, 그리고 각 단계를 거친 객체 분할 시각화를 포함합니다. 이를 통해 SAM 2의 각 구조가 비디오 이해에 미치는 영향을 파악하여, 복잡한 장면과 가림 현상에도 불구하고 실제 환경에서의 VOS 성능 향상에 기여할 수 있습니다.