본 논문은 장시간 비디오 처리 시 발생하는 대규모 비디오-언어 모델(LVLMs)의 어려움을 해결하기 위해, 인간의 계층적 시간적 탐색 전략을 모방한 새로운 프레임워크인 TimeSearch를 제안합니다. TimeSearch는 시간 증강 프레임 표현(TAFR)을 통해 관련 시간적 이벤트를 효율적으로 식별하는 Spotlight와 LVLMs의 고유한 시간적 자기 반성 기능을 활용하여 식별된 이벤트의 정확성을 평가하는 Reflection이라는 두 가지 인간과 유사한 기본 요소를 통합합니다. TimeSearch는 주요 이벤트를 점진적으로 탐색하고 반성 신뢰도에 따라 시간적 탐색의 우선 순위를 지정합니다. 실험 결과, TimeSearch는 기존 최고 성능을 상당히 능가하여 LVBench에서 정확도를 41.8%에서 51.5%로 향상시켰으며, Charades-STA에서 mIoU를 11.8% 향상시켰습니다. 코드는 공개될 예정입니다.