DAVE (Diagnostic Audio Visual Evaluation)는 시청각 정보 통합 및 해석을 목표로 하는 시청각 이해 분야의 한계를 극복하기 위해 고안된 새로운 벤치마크 데이터셋입니다. 기존 벤치마크의 강한 시각적 편향 및 오류 원인에 대한 종합적인 평가라는 문제점을 해결하기 위해, DAVE는 (i) 정답을 얻기 위해 두 가지 모달리티가 모두 필요하도록 설계하고, (ii) 평가를 원자적 하위 범주로 분리하여 모델의 시각적 이해, 청각적 해석, 시청각 정합 능력을 개별적으로 평가합니다. 최첨단 모델에 대한 자세한 분석을 통해 특정 오류 모드를 밝히고 향상을 위한 구체적인 통찰력을 제공하며, 시청각 모델의 더욱 강력한 개발을 위한 표준화된 진단 프레임워크를 제공합니다. 데이터셋은 GitHub에서 공개됩니다.