본 연구는 텍스트 쿼리를 사용하여 주어진 비디오에서 특정 시점을 찾는 비디오 모멘트 검색 문제를 다룹니다. 기존 모델들이 서로 다른 위치 결과 간의 충돌을 고려하지 않는 점을 개선하기 위해, 강화 학습 기반 모델을 제안합니다. 이 모델은 전체 비디오를 한 번 스캔하여 시점의 경계를 찾고, 위치 증거를 생성합니다. 또한, 증거 학습을 사용하여 에이전트 간의 충돌을 해결하는 다중 에이전트 시스템 프레임워크를 제안합니다. 이 시스템은 추가 훈련 없이 쿼리에 해당하는 시점이 비디오에 없는 경우(범위 외)를 판단할 수 있습니다. 벤치마크 데이터셋에 대한 실험 결과는 제안된 방법이 최첨단 접근 방식보다 효과적임을 보여줍니다.