본 논문은 다양한 시점에서 동일한 이벤트를 촬영한 비디오에 대해 Video-LLM(대형 언어 모델 기반 비디오)이 일관된 시간적 이해를 달성할 수 있는지 연구합니다. 이를 위해, 저자들은 자연어로 작성된 인간이 개선한 쿼리와 함께, 자아 중심적 및 외적 중심적 비디오 쌍을 포괄적으로 동기화한 EgoExo-Con(일관성) 벤치마크를 제시합니다. EgoExo-Con은 Temporal Verification 및 Temporal Grounding의 두 가지 시간적 이해 작업을 강조하며, 정확성뿐만 아니라 시점 간 일관성을 평가합니다. 분석 결과 기존 Video-LLM의 두 가지 주요 한계점이 드러났습니다. (1) 모델은 종종 일관성을 유지하지 못하고 단일 시점 성능보다 훨씬 낮은 결과를 보입니다. (2) 동기화된 두 시점 비디오로 단순 미세 조정했을 때, 모델은 일관성이 향상되지만 종종 단일 시점으로 훈련된 모델보다 성능이 떨어집니다. 개선을 위해 저자들은 뷰별 시간적 추론을 효과적으로 강화하고 시점 간 일관된 이해를 장려하는 새로운 강화 학습 프레임워크인 View-GRPO를 제안합니다. 제안된 방법은 단순 SFT 및 GRPO보다 우수하며, 특히 교차 뷰 일관성 향상에 효과적입니다. 모든 자료는 공개될 예정입니다.