본 논문은 비디오 질의응답(VideoQA) 문제에 대한 새로운 아키텍처인 Temporal Trio Transformer (T3T)를 제안합니다. 기존 Transformer 기반 모델들이 시간적 동역학을 단순화하는 것과 달리, T3T는 Temporal Smoothing (TS), Temporal Difference (TD), Temporal Fusion (TF) 세 가지 모듈을 통합하여 시간적 일관성과 변동성을 모두 모델링합니다. TS 모듈은 Brownian Bridge를 이용하여 부드러운 시간적 전이를 포착하고, TD 모듈은 중요한 시간적 변화와 급격한 변화를 인코딩하며, TF 모듈은 이러한 시간적 특징과 텍스트 정보를 통합하여 더욱 심층적인 이해와 정확한 응답을 가능하게 합니다. 여러 VideoQA 벤치마크 데이터셋에서의 실험 결과를 통해 T3T의 효과를 입증합니다.