본 논문은 중국 K12 교육과정의 다양한 과목에 대한 지식 이해 및 추론 능력을 평가하기 위한 종합적인 다중 모달 벤치마크인 K12Vista를 제안합니다. 기존 연구의 한계점인 좁은 과목 범위, 부족한 데이터 규모, 질문 유형의 다양성 부족, 단순한 답변 중심 평가 방식 등을 해결하기 위해 초등학교부터 고등학교까지 5개 주요 과목에 걸쳐 33,000개의 질문과 3가지 질문 유형을 포함하는 K12Vista를 구축했습니다. 또한, 최종 결과뿐 아니라 다중 모달 대규모 언어 모델(MLLM)의 추론 과정의 정확성에도 중점을 두고, MLLM의 추론 과정에서 발생하는 오류를 면밀히 수집하여 단계별 판단 주석이 포함된 대규모 프로세스 평가 데이터셋인 K12-PEM-800K를 구축했습니다. 추론 과정과 답변 정확성을 통합적으로 평가하는 고급 프로세스 평가 모델인 K12-PEM과 추론 과정 평가 능력을 평가하기 위한 고품질의 사람이 주석을 단 벤치마크인 K12-PEBench도 함께 제시합니다. 실험 결과, 현재 MLLM은 K12Vista에서 추론할 때 상당한 결함을 보이며, 더욱 능력 있는 MLLM 개발을 위한 중요한 통찰력을 제공합니다. 모든 리소스는 https://github.com/lichongod/K12Vista에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
중국 K12 교육 과정에 특화된, 대규모 다중 모달 벤치마크 K12Vista 및 프로세스 평가 데이터셋 K12-PEM-800K, 평가 모델 K12-PEM, 추론 과정 평가 벤치마크 K12-PEBench 제공.
◦
MLLM의 K12 과목에 대한 추론 능력의 현황과 한계를 명확히 제시.
◦
MLLM의 추론 과정 평가의 중요성을 강조하고, 이를 위한 새로운 방법론 제시.
◦
향후 MLLM 개발 방향에 대한 중요한 시사점 제공.
•
한계점:
◦
현재 벤치마크는 중국 K12 교육 과정에 특화되어 있어 다른 교육 과정에는 직접 적용하기 어려움.
◦
K12-PEM-800K 데이터셋은 사람이 주석을 단 데이터이므로, 데이터 수집 및 주석 작업에 대한 비용 및 시간이 소요됨.