본 논문은 오디오-시각 모델의 테스트 시점 분포 변화에 대한 강건성을 평가하기 위해 설계된 종합적인 벤치마크인 $\texttt{AVROBUSTBENCH}$를 소개합니다. $\texttt{AVROBUSTBENCH}$는 75개의 동시 발생 및 상관관계가 있는 바이모달 오디오-시각적 손상을 통합한 $\texttt{AUDIOSET-2C}$, $\texttt{VGGSOUND-2C}$, $\texttt{KINETICS-2C}$, $\texttt{EPICKITCHENS-2C}$의 네 가지 오디오-시각적 벤치마크 데이터 세트로 구성됩니다. 연구 결과, 최첨단 지도 및 자기 지도 오디오-시각 모델은 손상 심각도가 증가함에 따라 강건성이 감소했으며, 온라인 테스트 시점 적응(TTA) 방식은 바이모달 손상 하에서 성능 개선이 미미했습니다. 본 논문은 또한 높은 엔트로피 샘플을 페널티로 부과하여 즉석에서 크로스 모달 융합을 가능하게 하는 간단한 TTA 접근 방식 $\texttt{AV2C}$를 제안하여 $\texttt{VGGSOUND-2C}$에서 개선을 이루었습니다.