본 논문은 실세계 응용 분야에서 폭발적으로 증가하는 비디오 데이터에 대한 포괄적인 표현의 중요성을 강조하며, 비디오 장면 인식 문제를 다룹니다. 기존 연구는 시간적 관점에서 시각적 또는 텍스트 정보만을 사용하거나, 비시간적 관점에서 개별 이미지만을 인식하는 한계를 지적합니다. 본 논문에서는 시간적 및 비시간적 관점 모두가 중요하며 상호 보완적이라고 주장하며, 외부 지식의 활용 또한 중요하다고 제시합니다. 따라서 시간적 및 비시간적 관점을 모두 고려하는 새로운 두 가지 스트림 프레임워크를 제안하고, 자기 증류를 통해 두 관점을 통합합니다. 또한, 지식 기반 특징 융합 및 레이블 예측 방법을 설계하여 지식을 자연스럽게 통합합니다. 실제 데이터셋을 이용한 실험을 통해 제안된 방법의 효과를 검증합니다.