Sign In

Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup

Created by
  • Haebom
Category
Empty

저자

Seokun Kang, Taehwan Kim

개요

본 논문은 비디오 액션 인식에서의 반지도 학습(SSL)을 다룬다. 기존 연구들이 주로 시각 정보만을 활용한 반면, 본 논문은 시각 및 청각 정보를 모두 활용하는 오디오-비주얼 SSL 기반의 비디오 액션 인식 프레임워크를 제안한다. 특히, 오디오 소스 위치 정보를 활용한 믹스업 기법을 통해 시각 및 청각 모달리티 간의 관계를 고려하여 정보 활용을 극대화한다. UCF-51, Kinetics-400, VGGSound 데이터셋 실험 결과, 제안된 방법의 우수성을 보였다.

시사점, 한계점

시사점:
시각 및 청각 정보를 통합한 오디오-비주얼 SSL을 활용하여 비디오 액션 인식 성능 향상을 제시.
오디오 소스 위치 정보를 고려한 믹스업 기법을 통해 모달리티 간 관계를 효과적으로 활용.
제한된 레이블 데이터 환경에서도 우수한 성능을 달성.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 종류의 오디오-비주얼 데이터셋에 대한 실험 결과 추가 필요.
오디오 소스 위치 정보 추출의 정확도가 최종 성능에 미치는 영향에 대한 분석 필요.
👍