본 논문은 Meta AI에서 개발한 최첨단 비디오 객체 분할(VOS) 모델인 Segment-Anything Model 2 (SAM 2)의 성능을 심층적으로 분석합니다. 다양한 복잡한 비디오 변환을 SAM 2 아키텍처에 적용하여 각 단계에서의 영향을 측정함으로써, SAM 2가 고품질 비디오 분할을 달성하는 메커니즘을 이해하고자 합니다. 여기에는 복잡한 변환 비디오 데이터셋 생성, SAM 2 아키텍처의 각 단계에서의 변환 해석 분석, 그리고 각 단계를 거친 분할 객체 시각화가 포함됩니다. 이를 통해 모델 구조가 비디오 이해에 미치는 영향을 파악하여 실제 환경 적용성 및 복잡하고 가려진 장면에서의 객체 추적, 위치 확인 및 분할 성능 향상에 기여하고자 합니다.