Sign In

$\texttt{AVROBUSTBENCH}$: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time

Created by
  • Haebom
Category
Empty

저자

Sarthak Kumar Maharana, Saksham Singh Kushwaha, Baoming Zhang, Adrian Rodriguez, Songtao Wei, Yapeng Tian, Yunhui Guo

개요

본 논문은 오디오-시각 모델의 테스트 시점 분포 변화에 대한 강건성을 평가하기 위해 설계된 종합적인 벤치마크인 $\texttt{AVROBUSTBENCH}$를 소개합니다. $\texttt{AVROBUSTBENCH}$는 75개의 동시 발생 및 상관관계가 있는 바이모달 오디오-시각적 손상을 통합한 $\texttt{AUDIOSET-2C}$, $\texttt{VGGSOUND-2C}$, $\texttt{KINETICS-2C}$, $\texttt{EPICKITCHENS-2C}$의 네 가지 오디오-시각적 벤치마크 데이터 세트로 구성됩니다. 연구 결과, 최첨단 지도 및 자기 지도 오디오-시각 모델은 손상 심각도가 증가함에 따라 강건성이 감소했으며, 온라인 테스트 시점 적응(TTA) 방식은 바이모달 손상 하에서 성능 개선이 미미했습니다. 본 논문은 또한 높은 엔트로피 샘플을 페널티로 부과하여 즉석에서 크로스 모달 융합을 가능하게 하는 간단한 TTA 접근 방식 $\texttt{AV2C}$를 제안하여 $\texttt{VGGSOUND-2C}$에서 개선을 이루었습니다.

시사점, 한계점

$\texttt{AVROBUSTBENCH}$는 오디오-시각 모델의 테스트 시점 강건성을 평가하기 위한 포괄적인 벤치마크를 제공합니다.
최첨단 오디오-시각 모델의 강건성이 손상 심각도 증가에 따라 감소함을 보여줍니다.
기존 TTA 방법은 바이모달 손상 하에서 제한적인 성능 향상을 보였습니다.
$\texttt{AV2C}$라는 새로운 TTA 접근 방식을 제안하여 $\texttt{VGGSOUND-2C}$에서 개선을 달성했습니다.
제한점으로는, 특정 데이터 세트(예: $\texttt{VGGSOUND-2C}$)에서만 $\texttt{AV2C}$의 효과가 입증되었다는 점과, 벤치마크가 모든 가능한 실제 시나리오를 포괄하지 못할 수 있다는 점이 있습니다.
👍