Depth Anything의 단점인 비디오 내 시간적 불일관성 문제를 해결하기 위해, 초장시간 비디오(수 분 이상)에 대한 고품질, 일관된 심도 추정을 위한 Video Depth Anything 모델을 제안합니다. Depth Anything V2를 기반으로 효율적인 공간-시간 헤드로 교체하고, 시간적 심도 기울기를 제한하는 간단하면서도 효과적인 시간 일관성 손실 함수를 설계하여 추가적인 기하학적 사전 정보 없이도 시간적 일관성을 확보합니다. 키프레임 기반 전략을 통해 장시간 비디오 추론을 효율적으로 수행하며, 다양한 규모의 모델을 제공하여 실시간 성능(30 FPS)까지 지원합니다. 여러 비디오 벤치마크에 대한 종합적인 평가를 통해 제로샷 비디오 심도 추정 분야에서 새로운 최첨단 성능을 달성함을 보여줍니다.