UMaT은 시각 및 청각 입력을 대규모 언어 모델을 위한 구조화된 텍스트로 통합하는 이론적 토대를 갖춘 프레임워크입니다. 기존의 다중 모달 학습 방식이 가지는 모달 간 표현 및 추론의 불일치 문제를 해결하기 위해, 의미 정렬, 시간 동기화 및 효율적인 희소 정보 검색에 중점을 둡니다. 이는 중복성 최소화와 구조화된 텍스트 표현을 통한 통합된 다중 모달 추론을 통해 최첨단 장시간 비디오 질문 답변 정확도를 상당히 향상시킵니다 (장시간 비디오에서 최대 13.7%, 16.9% 향상).