Sign In

EgoExo-Con: Exploring View-Invariant Video Temporal Understanding

Created by
  • Haebom
Category
Empty

저자

Minjoon Jung, Junbin Xiao, Junghyun Kim, Byoung-Tak Zhang, Angela Yao

개요

본 논문은 다양한 시점에서 동일한 이벤트를 촬영한 비디오에 대해 Video-LLM(대형 언어 모델 기반 비디오)이 일관된 시간적 이해를 달성할 수 있는지 연구합니다. 이를 위해, 저자들은 자연어로 작성된 인간이 개선한 쿼리와 함께, 자아 중심적 및 외적 중심적 비디오 쌍을 포괄적으로 동기화한 EgoExo-Con(일관성) 벤치마크를 제시합니다. EgoExo-Con은 Temporal Verification 및 Temporal Grounding의 두 가지 시간적 이해 작업을 강조하며, 정확성뿐만 아니라 시점 간 일관성을 평가합니다. 분석 결과 기존 Video-LLM의 두 가지 주요 한계점이 드러났습니다. (1) 모델은 종종 일관성을 유지하지 못하고 단일 시점 성능보다 훨씬 낮은 결과를 보입니다. (2) 동기화된 두 시점 비디오로 단순 미세 조정했을 때, 모델은 일관성이 향상되지만 종종 단일 시점으로 훈련된 모델보다 성능이 떨어집니다. 개선을 위해 저자들은 뷰별 시간적 추론을 효과적으로 강화하고 시점 간 일관된 이해를 장려하는 새로운 강화 학습 프레임워크인 View-GRPO를 제안합니다. 제안된 방법은 단순 SFT 및 GRPO보다 우수하며, 특히 교차 뷰 일관성 향상에 효과적입니다. 모든 자료는 공개될 예정입니다.

시사점, 한계점

시사점:
EgoExo-Con 벤치마크를 통해 Video-LLM의 시점 간 일관성 문제를 명확히 규명.
View-GRPO 프레임워크를 통해 교차 뷰 일관성 문제를 해결하는 새로운 방법 제시.
강화 학습 기반의 접근 방식이 Video-LLM의 성능 향상에 기여 가능성을 보여줌.
모델 성능 향상을 위한 공개 자료 제공.
한계점:
기존 Video-LLM의 시점 간 일관성 부족 문제 발생.
단순 미세 조정으로는 시점 간 일관성 향상에 한계가 있음.
새로운 프레임워크의 일반화 성능 검증 필요.
모델의 실제 적용 가능성에 대한 추가 연구 필요.
👍