UMaT (Unified Multi-modal as Text)는 장시간 비디오 질의응답(LVQA)을 위한 새로운 접근 방식을 제시하는 논문입니다. 기존 방법들의 한계인 장시간 비디오에서의 교차 모달 정보 검색 문제를 해결하기 위해, 시각 및 청각 데이터를 통합된 텍스트 표현으로 변환하는 RAG(Retrieval-Augmented Generation) 프레임워크를 제안합니다. 짧은 비디오 클립은 Vision-Language Model로 분석하고, ASR을 통해 대화를 텍스트로 변환합니다. 이렇게 생성된 텍스트 기반 표현은 시간적으로 정렬되고, 중복 정보 제거 및 중요 정보 유지를 위한 적응적 필터링을 거칩니다. 처리된 데이터는 벡터 데이터베이스에 저장되어 관련 정보의 정확한 검색을 가능하게 합니다. 벤치마크 LVQA 데이터셋 실험 결과, UMaT은 기존 방법들보다 다중 모달 통합, 장시간 비디오 이해, 그리고 산발적인 정보 검색에서 우수한 성능을 보였으며, 1시간 이상의 장시간 비디오 처리에도 의미 및 시간적 일관성을 유지하는 확장성과 해석성을 보여줍니다.