PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models
Created by
Haebom
저자
Lintao Wang, Encheng Su, Jiaqi Liu, Pengze Li, Peng Xia, Jiabei Xiao, Wenlong Zhang, Xinnan Dai, Xi Chen, Yuan Meng, Mingyu Ding, Lei Bai, Wanli Ouyang, Shixiang Tang, Aoran Wang, Xinzhu Ma
개요
PhysUniBench는 물리학 문제 해결 능력을 평가하기 위한 대규모 다중 모드 벤치마크입니다. 학부 수준의 물리학 문제 3,304개 (8개 주요 하위 분야, 각 문제당 하나의 시각적 다이어그램 포함)를 포함하며, 주관식과 객관식 문제가 모두 포함되어 있습니다. 반복적인 모델-루프 프로세스를 통해 난이도가 평가되었고, 다단계 프로세스를 거쳐 엄격하게 구성되었습니다. 현존 최고 성능 모델들조차도, 특히 다단계 문제나 정확한 다이어그램 해석이 필요한 문제에서 어려움을 겪는다는 것을 실험을 통해 보여줍니다 (예: GPT-4o mini는 약 34.2%의 정확도). 이 벤치마크는 과학 분야 AI 발전을 위한 엄격하고 광범위한 평가 도구를 제공하여, 더 강력한 물리적 추론, 문제 해결 능력 및 다중 모드 이해 능력을 갖춘 모델 개발을 장려하는 것을 목표로 합니다.
시사점, 한계점
•
시사점: 학부 수준 물리학 문제 해결 능력 평가를 위한 엄격하고 광범위한 벤치마크 제공, 현존 최고 성능 모델의 물리학 추론 능력 한계를 명확히 제시, 다중 모드 이해 능력 향상 및 물리학 문제 해결 AI 연구 발전 촉진.
•
한계점: 현재 벤치마크의 성능 평가 결과가 특정 모델에만 국한될 수 있음. 다양한 유형의 물리학 문제 및 다양한 난이도의 문제를 더욱 포괄적으로 포함할 필요성. 벤치마크의 지속적인 업데이트 및 개선 필요.