HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark?
Created by
Haebom
저자
Fangchen Yu, Haiyuan Wan, Qianjia Cheng, Yuchen Zhang, Jiacheng Chen, Fujun Han, Yulun Wu, Junchi Yao, Ruilizhen Hu, Ning Ding, Yu Cheng, Tao Chen, Lei Bai, Dongzhan Zhou, Yun Luo, Ganqu Cui, Peng Ye
개요
본 논문은 고등학교 물리 올림피아드 문제를 기반으로 한 새로운 벤치마크 HiPhO를 제시합니다. HiPhO는 2024-2025년 최신 올림피아드 시험 13개를 망라하며, 텍스트 기반부터 다이어그램 기반 문제까지 다양한 유형을 포함합니다. 인간 심사 기준에 맞춰 문제 및 풀이 단계별로 채점을 진행하며, 모델의 성적에 따라 금, 은, 동메달을 부여하여 인간 참가자와의 직접적인 성능 비교를 가능하게 합니다. 30개의 최첨단 (M)LLM을 평가한 결과, 오픈소스 MLLM은 대부분 동메달 이하 수준에 머물렀고, 오픈소스 LLM은 일부 금메달을 획득하는 등 발전을 보였으며, 폐쇄형 추론 MLLM은 6~12개의 금메달을 획득했지만, 여전히 만점과는 상당한 격차를 보였습니다.
시사점, 한계점
•
시사점:
◦
고등학교 물리 올림피아드를 기반으로 한 최초의 인간 중심 평가 벤치마크 HiPhO 제시.
◦
오픈소스와 폐쇄형 모델 간 물리적 추론 능력의 차이를 명확히 보여줌.
◦
(M)LLM의 물리적 추론 능력 향상을 위한 새로운 기준 제시.
◦
다양한 유형의 물리 문제를 포함하여 폭넓은 평가 가능.
◦
모델 성능을 인간 참가자와 직접 비교 가능.
•
한계점:
◦
벤치마크에 포함된 올림피아드 시험의 수와 종류가 제한적일 수 있음.
◦
인간 심사 기준과의 완벽한 일치는 어려울 수 있음.
◦
폐쇄형 모델의 성능 우위가 모델 자체의 능력인지, 또는 데이터 접근성 및 학습 전략의 차이인지 명확하지 않을 수 있음.