Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

Created by
  • Haebom

저자

Pengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang

개요

본 논문은 다중 모드 대규모 언어 모델(MLLM)의 다중 모달 추론 능력 평가의 부족을 해결하기 위해, 실제 K-12 시험을 기반으로 한 다학제적 벤치마크 MDK12-Bench를 제시합니다. 수학, 물리, 화학, 생물, 지리, 정보 과학 등 6개 학문 분야에 걸쳐 초등학교부터 12학년까지 다양한 난이도의 14만 개 추론 문제를 포함하며, 6,827개의 지식 포인트 주석, 상세한 답변 설명, 난이도 라벨, 연도별 분할 등을 제공하여 포괄적인 평가를 위한 견고한 플랫폼을 제공합니다. 또한, 평가 중 질문 형식, 질문 유형, 이미지 스타일을 부트스트래핑하여 데이터 오염 문제를 완화하기 위한 새로운 동적 평가 프레임워크를 제시합니다. MDK12-Bench에 대한 광범위한 실험은 현재 MLLM의 다중 모달 추론에 대한 상당한 한계를 보여주며, 차세대 모델 개발에 대한 통찰력을 제공합니다. 데이터와 코드는 https://github.com/LanceZPF/MDK12 에서 이용 가능합니다.

시사점, 한계점

시사점:
실제 K-12 시험을 기반으로 한 대규모 다중 모달 추론 벤치마크 MDK12-Bench를 제공하여 MLLM의 성능을 종합적으로 평가할 수 있는 기반을 마련했습니다.
현재 MLLM의 다중 모달 추론 능력의 한계를 명확히 밝히고, 향후 모델 개발 방향을 제시했습니다.
데이터 오염 문제를 완화하기 위한 동적 평가 프레임워크를 제시했습니다.
한계점:
벤치마크가 K-12 교육 과정에 기반하여 구성되었으므로, 실제 세계의 복잡한 문제 해결 능력을 완벽하게 반영하지 못할 수 있습니다.
벤치마크의 다양성에도 불구하고, 특정 분야 또는 유형의 문제에 대한 편향이 존재할 가능성이 있습니다.
동적 평가 프레임워크의 효과에 대한 추가적인 연구가 필요합니다.
👍