본 논문은 기존 오디오-비주얼 위치 추정(AVL) 연구의 한계점인 시간적 역동성 무시와 단순화된 시나리오 설정을 지적하며, 이를 해결하기 위해 고해상도 시간 정보를 포함하는 새로운 비디오 중심 AVL 벤치마크인 AVATAR를 제안합니다. AVATAR는 단일 소리, 혼합 소리, 다중 개체, 화면 밖 등 네 가지 시나리오를 포함하여 AVL 모델을 더 포괄적으로 평가할 수 있도록 설계되었습니다. 또한, 시간 정보를 명시적으로 통합하는 새로운 비디오 중심 AVL 모델인 TAVLO를 제시합니다. 실험 결과, 기존 방법들은 전역 오디오 특징과 프레임 단위 매핑에 의존하여 시간적 변화 추적에 어려움을 겪는 반면, TAVLO는 고해상도 시간 모델링을 활용하여 강력하고 정확한 오디오-비주얼 정렬을 달성함을 보여줍니다. 이는 시간 역동성이 AVL에서 중요함을 실험적으로 증명하고, 비디오 중심 AVL의 새로운 표준을 제시합니다.