Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation

Created by
  • Haebom

저자

Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Min Zhang, Wen Zhang, Huajun Chen

개요

본 논문은 다양한 모드의 정보를 이해하는 다중 모달 대규모 언어 모델(MLLM)의 평가를 위한 새로운 벤치마크 M3STR을 제안합니다. 기존 벤치마크들이 시각적 형태의 구조화된 추상적 세계 지식 이해 능력을 간과하는 점을 지적하며, 다중 모달 지식 그래프를 활용하여 하위 그래프 구조와 다중 모달 엔티티로 풍부하게 구성된 이미지를 생성하는 M3STR을 개발했습니다. M3STR은 MLLM이 시각적 입력 내의 다중 모달 엔티티를 인식할 뿐만 아니라, 엔티티 간 복잡한 관계 위상을 해독해야 함을 요구합니다. 26개의 최첨단 MLLM을 대상으로 실험 분석을 수행하여 구조화된 지식을 가진 추상적 시각 정보 처리 능력의 부족을 밝히고, MLLM의 전체적인 추론 능력 향상을 위한 방향을 제시합니다. 코드와 데이터는 공개되어 있습니다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델의 구조화된 시각 정보 처리 능력 평가를 위한 새로운 벤치마크 M3STR 제시
기존 벤치마크의 한계점을 보완하여 MLLM의 추상적 세계 지식 이해 능력 평가 가능
26개 최첨단 MLLM에 대한 실험 분석을 통해 MLLM의 추론 능력 향상을 위한 연구 방향 제시
M3STR 벤치마크의 코드와 데이터 공개
한계점:
M3STR 벤치마크가 얼마나 일반화될 수 있는지에 대한 추가 연구 필요
다양한 유형의 다중 모달 데이터와 MLLM 아키텍처에 대한 벤치마크의 적용성에 대한 추가적인 검증 필요
M3STR 벤치마크의 생성 과정 및 평가 지표의 객관성 및 공정성에 대한 추가적인 논의 필요
👍