Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Correspondence of high-dimensional emotion structures elicited by video clips between humans and Multimodal LLMs

Created by
  • Haebom

저자

Haruka Asanuma, Naoko Koide-Majima, Ken Nakamura, Takato Horii, Shinji Nishimoto, Masafumi Oizumi

개요

본 논문은 최신 다중모드 대규모 언어 모델(MLLM)이 고차원적이고 복잡한 인간 감정 구조를 얼마나 잘 포착하는지 조사합니다. 참가자들이 비디오를 시청하며 자가 보고한 감정 평가와 모델이 생성한 감정 추정치(Gemini 또는 GPT 등)를 비교하여, 개별 비디오 수준뿐 아니라 비디오 간 관계를 고려한 감정 구조 수준에서도 성능을 평가했습니다. 그 결과, 인간과 모델이 추론한 감정 구조 간의 상관관계는 높은 유사성을 보였습니다. Gromov Wasserstein 최적 전달을 적용하여 개별 항목 수준과 범주 수준에서의 유사성을 추가적으로 분석한 결과, 개별 항목 수준에서는 성능이 높지 않았지만, 유사한 감정을 유발하는 비디오 범주에서는 상당한 성능을 보였습니다. 따라서 최신 MLLM은 범주 수준에서는 고차원적이고 복잡한 감정 구조를 상당히 잘 포착하지만, 개별 항목 수준에서는 전체 구조를 정확하게 포착하는 데 한계가 있음을 시사합니다.

시사점, 한계점

시사점: 최신 MLLM이 고차원적이고 복잡한 인간 감정 구조를 범주 수준에서 효과적으로 포착할 수 있음을 보여줍니다. 이는 MLLM의 감정 인식 능력에 대한 중요한 시사점을 제공합니다.
한계점: MLLM은 개별 비디오 또는 개별 감정 항목 수준에서는 인간의 감정을 정확하게 포착하는 데 어려움을 보입니다. 모델의 감정 인식 정확도 향상을 위한 추가 연구가 필요합니다. 또한, 현재 연구는 특정 MLLM과 비디오 데이터셋에 국한되어 일반화 가능성에 대한 추가 연구가 필요합니다.
👍