본 논문은 다양한 시나리오에서 최적의 3D 장면 인코딩 전략을 탐구하는 포괄적인 연구를 제시합니다. 이미지 기반, 비디오 기반 및 3D 기반 모델을 포함한 7가지 비전 기반 인코더를 사용하여 비전-언어 장면 추론, 시각적 근거, 분할 및 등록 등 네 가지 작업에서 평가합니다. 평가 결과 DINOv2가 우수한 성능을 보였고, 비디오 모델은 객체 수준 작업에서, 확산 모델은 기하학적 작업에서 효과적임을 확인했습니다. 또한 언어 사전 학습 모델은 언어 관련 작업에서 예상치 못한 한계를 보였습니다. 이러한 통찰력은 기존의 이해에 도전하고, 비전 기반 모델 활용에 대한 새로운 관점을 제공하며, 향후 비전-언어 및 장면 이해 작업에서 보다 유연한 인코더 선택의 필요성을 강조합니다.