WorldSense는 시각, 청각, 텍스트 입력을 동시에 포함하는 다중 모달 비디오 이해 능력을 평가하는 최초의 벤치마크입니다. 기존 벤치마크와 달리, WorldSense는 청각 및 영상의 강력한 결합을 특징으로 하는 평가 과제를 설계하여 다중 모달의 시너지 효과를 활용해야 함(omni-modality 협업), 다양한 비디오 및 과제를 포함하여 광범위한 시나리오를 다루는 8개의 주요 도메인과 67개의 세분화된 하위 범주로 체계적으로 분류된 1,662개의 오디오-비주얼 동기화 비디오 및 26개의 개별 과제에 걸쳐 3,172개의 객관식 QA 쌍 포함, 80명의 전문가에 의한 수동 라벨링과 여러 차례의 수정을 통해 품질을 보장하는 고품질 주석 등의 특징을 가지고 있습니다. WorldSense를 기반으로 다양한 최첨단 모델을 광범위하게 평가한 결과, 기존 모델은 실제 시나리오 이해에 상당한 어려움을 겪고 있음(최고 정확도 48.0%)을 보여줍니다. 현재 모델의 한계를 분석하여 실제 세계 이해 개발을 위한 귀중한 통찰력을 제공하고, 다중 모달에서 일관된 맥락을 구성하고 이해하는 능력을 평가하기 위한 플랫폼을 제공하고자 합니다.