Sign In

Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

Created by
  • Haebom
Category
Empty

저자

Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang

제목: 다중 모달 대규모 언어 모델의 인지 수준 의미 이해 능력 평가를 위한 MMLA 벤치마크

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델(MLLM)의 인지 수준 의미 이해 능력 평가를 위한 포괄적인 벤치마크인 MMLA를 제시.
MMLA는 61,000개 이상의 다중 모달 발화를 포함하며, 의도, 감정, 대화 행위, 감정, 화법, 의사소통 행동 등 6가지 핵심 차원의 다중 모달 의미를 다룸.
다양한 평가 방법(제로샷 추론, 지도 학습 미세 조정, 지시 조정)을 통해 MLLM의 성능을 평가하고, 현재 MLLM의 복잡한 인간 언어 이해 능력의 한계를 밝힘.
MMLA 데이터셋과 코드를 공개하여 다중 모달 언어 분석 분야의 발전에 기여.
한계점:
현재 MLLM의 정확도가 60~70% 수준에 그쳐, 복잡한 인간 언어 이해에 대한 추가적인 연구가 필요함.
MMLA 벤치마크가 모든 유형의 다중 모달 의미를 포괄적으로 다루는지에 대한 추가적인 검증 필요.
👍