본 논문은 비디오 액션 인식에서의 반지도 학습(SSL)을 다룬다. 기존 연구들이 주로 시각 정보만을 활용한 반면, 본 논문은 시각 및 청각 정보를 모두 활용하는 오디오-비주얼 SSL 기반의 비디오 액션 인식 프레임워크를 제안한다. 특히, 오디오 소스 위치 정보를 활용한 믹스업 기법을 통해 시각 및 청각 모달리티 간의 관계를 고려하여 정보 활용을 극대화한다. UCF-51, Kinetics-400, VGGSound 데이터셋 실험 결과, 제안된 방법의 우수성을 보였다.