본 논문은 최신 다중모드 대규모 언어 모델(MLLM)이 고차원적이고 복잡한 인간 감정 구조를 얼마나 잘 포착하는지 조사합니다. 참가자들이 비디오를 시청하며 자가 보고한 감정 평가와 모델이 생성한 감정 추정치(Gemini 또는 GPT 등)를 비교하여, 개별 비디오 수준뿐 아니라 비디오 간 관계를 고려한 감정 구조 수준에서도 성능을 평가했습니다. 그 결과, 인간과 모델이 추론한 감정 구조 간의 상관관계는 높은 유사성을 보였습니다. Gromov Wasserstein 최적 전달을 적용하여 개별 항목 수준과 범주 수준에서의 유사성을 추가적으로 분석한 결과, 개별 항목 수준에서는 성능이 높지 않았지만, 유사한 감정을 유발하는 비디오 범주에서는 상당한 성능을 보였습니다. 따라서 최신 MLLM은 범주 수준에서는 고차원적이고 복잡한 감정 구조를 상당히 잘 포착하지만, 개별 항목 수준에서는 전체 구조를 정확하게 포착하는 데 한계가 있음을 시사합니다.