본 논문은 AI의 사회적 지능 향상을 위해 비언어적 사회적 상호작용이 풍부한 마임 비디오를 활용한 새로운 데이터셋 MimeQA를 제시합니다. MimeQA는 유튜브에서 8시간 분량의 비디오 클립을 수집하고, 806개의 질문-답변 쌍으로 구성된 포괄적인 비디오 질의응답 벤치마크를 통해 비언어적 사회적 추론 능력을 평가합니다. 기존의 언어 중심 접근 방식의 한계를 극복하고자 마임이라는 비언어적 의사소통 방식에 주목하여, 최첨단 비디오 대규모 언어 모델(vLLM)의 성능을 평가한 결과, 인간의 86% 정확도에 비해 20-30%의 낮은 정확도를 보이는 것을 확인했습니다. 분석 결과, vLLM은 상상 속의 객체를 제대로 인식하지 못하고, 미묘한 비언어적 상호작용을 무시하며 텍스트 프롬프트에 과도하게 의존하는 경향을 보였습니다. 이는 비언어적 인간 상호작용을 해석할 수 있는 진정한 사회적 지능을 가진 AI 모델 개발을 위한 후속 연구를 촉구하는 결과입니다.