3D 인스턴스 분할은 실제 응용 프로그램에 중요한 작업입니다. 비용이 많이 드는 수동 주석을 피하기 위해 기존 방법은 파운데이션 모델에서 2D 마스크를 3D로 전송하여 가짜 레이블을 생성하는 것을 탐구했습니다. 그러나 이 접근 방식은 비디오 프레임이 독립적으로 처리되기 때문에 종종 최적이 아닙니다. 이로 인해 불일치한 분할 세분성과 상충하는 3D 가짜 레이블이 발생하여 최종 분할의 정확도가 저하됩니다. 이를 해결하기 위해, 우리는 프레임 간의 시간적 상관 관계를 유지하여 상충되는 가짜 레이블을 제거하는 Granularity-Consistent 자동 2D 마스크 추적 접근 방식을 소개합니다. 3단계 커리큘럼 학습 프레임워크와 결합하여, 우리의 접근 방식은 조각난 단일 뷰 데이터에서 통합된 멀티 뷰 주석으로 점진적으로 학습하여 궁극적으로 전체 장면의 일관된 감독을 제공합니다. 이 구조화된 학습 파이프라인을 통해 모델은 점진적으로 일관성이 증가하는 가짜 레이블에 노출될 수 있습니다. 따라서, 우리는 처음에는 조각나고 모순되는 2D 사전 정보로부터 일관된 3D 표현을 견고하게 추출할 수 있습니다. 실험 결과는 우리의 방법이 일관되고 정확한 3D 분할을 효과적으로 생성한다는 것을 보여주었습니다. 또한, 제안된 방법은 표준 벤치마크 및 개방형 어휘 능력에서 최첨단 결과를 달성했습니다.