본 논문은 장시간 비디오 이해를 위한 새로운 모델 AdaCM$^2$를 제안합니다. 기존의 LLM 기반 비디오 이해 모델들은 짧은 비디오에만 적용 가능하고, 장시간 비디오를 처리하기 위해 시각적 특징을 고정된 메모리 크기로 압축하는 방법은 시각 정보만 활용하여 시각 및 텍스트 질의 간의 상관관계를 고려하지 못하는 한계가 있습니다. AdaCM$^2$는 자동 회귀 방식으로 비디오 스트림에서 적응적 교차 모달리티 메모리 감소 접근 방식을 도입하여 장시간 비디오와 복잡한 프롬프트에 대한 문제를 해결합니다. 다양한 비디오 이해 작업(비디오 캡션 생성, 비디오 질의응답, 비디오 분류)에 대한 실험 결과, AdaCM$^2$는 여러 데이터셋에서 최첨단 성능을 달성하면서 메모리 사용량을 크게 줄였음을 보여줍니다. 특히 LVU 데이터셋에서 여러 작업에 걸쳐 4.5%의 성능 향상을 달성했고, GPU 메모리 소비량을 최대 65%까지 줄였습니다.