비디오 이해 분야는 대규모 데이터와 복잡한 아키텍처에 대한 의존이 모든 상황에 대한 만능 해결책이 아닌, 중요한 시점에 도달했습니다. 데이터 불균형은 DNN이 기저의 인과 메커니즘을 효과적으로 학습하는 것을 방해하여 장기간 불균형이나 왜곡된 불균형과 같은 분포 변화가 발생할 때 성능이 크게 저하됩니다. 이에 따라 연구자들은 비디오 데이터의 인과 패턴을 포착하기 위한 대안적인 방법론을 모색하게 되었습니다. 본 논문은 인과 모델링을 통해 의미론적 비디오 이해 분야의 두 가지 기본 과제인 비디오 관계 검출(VidVRD)과 비디오 질문 응답(VideoQA)을 발전시키는 잠재력을 탐구합니다.