본 논문은 다양한 모드의 정보를 이해하는 다중 모달 대규모 언어 모델(MLLM)의 평가를 위한 새로운 벤치마크 M3STR을 제안합니다. 기존 벤치마크들이 시각적 형태의 구조화된 추상적 세계 지식 이해 능력을 간과하는 점을 지적하며, 다중 모달 지식 그래프를 활용하여 하위 그래프 구조와 다중 모달 엔티티로 풍부하게 구성된 이미지를 생성하는 M3STR을 개발했습니다. M3STR은 MLLM이 시각적 입력 내의 다중 모달 엔티티를 인식할 뿐만 아니라, 엔티티 간 복잡한 관계 위상을 해독해야 함을 요구합니다. 26개의 최첨단 MLLM을 대상으로 실험 분석을 수행하여 구조화된 지식을 가진 추상적 시각 정보 처리 능력의 부족을 밝히고, MLLM의 전체적인 추론 능력 향상을 위한 방향을 제시합니다. 코드와 데이터는 공개되어 있습니다.
시사점, 한계점
•
시사점:
◦
다중 모달 대규모 언어 모델의 구조화된 시각 정보 처리 능력 평가를 위한 새로운 벤치마크 M3STR 제시
◦
기존 벤치마크의 한계점을 보완하여 MLLM의 추상적 세계 지식 이해 능력 평가 가능
◦
26개 최첨단 MLLM에 대한 실험 분석을 통해 MLLM의 추론 능력 향상을 위한 연구 방향 제시
◦
M3STR 벤치마크의 코드와 데이터 공개
•
한계점:
◦
M3STR 벤치마크가 얼마나 일반화될 수 있는지에 대한 추가 연구 필요
◦
다양한 유형의 다중 모달 데이터와 MLLM 아키텍처에 대한 벤치마크의 적용성에 대한 추가적인 검증 필요
◦
M3STR 벤치마크의 생성 과정 및 평가 지표의 객관성 및 공정성에 대한 추가적인 논의 필요