본 논문은 장시간 비정형 비디오 콘텐츠에 대한 대규모 다중 모달 모델(LLM)의 적용에 따르는 문맥 길이 제한 및 과도한 메모리 오버헤드 문제를 해결하기 위해, 새로운 비디오-LLM 프레임워크인 SALOVA(Segment-Augmented LOng Video Assistant)를 제시합니다. SALOVA는 목표 지향적 검색 프로세스를 통해 긴 비디오 콘텐츠의 이해도를 높입니다. 이를 위해 87.8K개의 장시간 비디오로 구성된 고품질 데이터셋 SceneWalk를 제작하고, 동적 라우팅 메커니즘과 시공간 프로젝터를 통합한 강력한 아키텍처 설계를 통해 관련 비디오 세그먼트를 효율적으로 검색 및 처리합니다. 실험 결과, SALOVA는 복잡한 장시간 비디오 처리 능력을 향상시키고, 긴 시퀀스에서도 문맥적 무결성을 유지하는 능력을 보여줍니다.