Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Junwen Pan, Qizhe Zhang, Rui Zhang, Ming Lu, Xin Wan, Yuan Zhang, Chang Liu, Qi She

개요

본 논문은 장시간 비디오 이해를 위한 기반 기술인 시계열 검색 문제를 해결하기 위해, 강화 학습(RL)을 통해 검색 과정과 추론 과정을 통합하는 TimeSearch-R을 제안합니다. 특히, Group Relative Policy Optimization (GRPO) 기반의 RL 훈련 시 발생할 수 있는 비디오 내용 탐색 부족과 일관성 없는 논리적 추론 문제를 해결하기 위해, Completeness Self-Verification (GRPO-CSV)를 도입합니다. GRPO-CSV는 검색된 비디오 프레임의 적절성을 검증하여 비디오 추론의 완전성을 향상시킵니다. 또한, GRPO-CSV의 SFT cold-start 및 RL 훈련을 위한 특수 데이터셋을 구축하여 시계열 검색 능력을 강화합니다. TimeSearch-R은 Haystack-LVBench, Haystack-Ego4D 등의 시계열 검색 벤치마크 및 VideoMME, MLVU 등의 장시간 비디오 이해 벤치마크에서 상당한 성능 향상을 보이며, LongVideoBench에서 새로운 SOTA를 달성했습니다.

시사점, 한계점

시사점:
강화 학습을 활용한 시계열 검색 문제 해결 접근 방식 제시
GRPO-CSV를 통한 RL 기반 비디오 추론의 완전성 향상
특수 데이터셋 구축을 통한 시계열 검색 능력 향상
다양한 벤치마크에서 SOTA 달성 및 성능 향상 입증
오픈 소스 코드 제공
한계점:
논문에서 구체적인 한계점 언급은 없음 (추가 연구 필요)
👍