본 논문은 장시간 비디오 이해를 위한 새로운 방법인 Temporal Dynamic Context (TDC)를 제안합니다. 기존의 장시간 비디오 이해 모델들이 긴 문맥 길이 제약과 방대한 정보량으로 어려움을 겪는다는 점을 해결하기 위해, TDC는 비디오를 의미적으로 일관된 장면으로 분할하고, 시각-청각 인코더를 사용하여 각 프레임을 토큰화합니다. 이후, 혁신적인 시간적 문맥 압축기를 통해 각 장면 내 토큰 수를 줄이고, 쿼리 기반 Transformer를 이용하여 비디오, 오디오, 지시문 텍스트 토큰을 제한된 수의 시간적 문맥 토큰으로 집계합니다. 마지막으로, 정적 프레임 토큰과 시간적 문맥 토큰을 LLM에 입력하여 비디오 이해를 수행합니다. 매우 긴 비디오 처리를 위해서는 훈련이 필요 없는 chain-of-thought 전략을 통해 여러 비디오 세그먼트에서 답변을 추출하고, 이 중간 답변들을 최종 답변 도출에 활용합니다. 일반 비디오 이해 및 오디오-비디오 이해 벤치마크에서 강력한 성능을 보였으며, 코드와 모델은 공개되어 있습니다.