Sign In

Who Can We Trust? Scope-Aware Video Moment Retrieval with Multi-Agent Conflict

Created by
  • Haebom
Category
Empty

저자

Chaochen Wu, Guan Luo, Meiyun Zuo, Zhitao Fan

개요

본 연구는 텍스트 쿼리를 사용하여 주어진 비디오에서 특정 시점을 찾는 비디오 모멘트 검색 문제를 다룹니다. 기존 모델들이 서로 다른 위치 결과 간의 충돌을 고려하지 않는 점을 개선하기 위해, 강화 학습 기반 모델을 제안합니다. 이 모델은 전체 비디오를 한 번 스캔하여 시점의 경계를 찾고, 위치 증거를 생성합니다. 또한, 증거 학습을 사용하여 에이전트 간의 충돌을 해결하는 다중 에이전트 시스템 프레임워크를 제안합니다. 이 시스템은 추가 훈련 없이 쿼리에 해당하는 시점이 비디오에 없는 경우(범위 외)를 판단할 수 있습니다. 벤치마크 데이터셋에 대한 실험 결과는 제안된 방법이 최첨단 접근 방식보다 효과적임을 보여줍니다.

시사점, 한계점

강화 학습 기반 비디오 모멘트 검색 모델 제안: 전체 비디오를 한 번 스캔하여 효율적인 시점 검색 가능.
다중 에이전트 시스템 프레임워크 도입: 에이전트 간의 충돌 해결 및 증거 학습 활용.
범위 외 쿼리 처리 능력: 추가 훈련 없이 쿼리에 해당하는 시점이 없는 경우 판단 가능.
실험 결과: 제안된 방법의 효과성 입증.
연구 결과의 시사점: 다중 에이전트 시스템에서 경쟁 및 충돌 모델링이 RL 성능 향상에 효과적이며, 증거 학습의 새로운 역할 제시.
👍