Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models

Created by
  • Haebom

저자

Xin Xu, Qiyun Xu, Tong Xiao, Tianhao Chen, Yuchen Yan, Jiaxin Zhang, Shizhe Diao, Can Yang, Yang Wang

개요

본 논문은 대규모 언어 모델(LLM)의 물리학 추론 능력 평가를 위한 새로운 벤치마크인 UGPhysics를 제안합니다. UGPhysics는 영어와 중국어로 된 5,520개의 학부 수준 물리 문제를 포함하며, 13개의 과목, 7가지 답변 유형, 4가지 물리 추론 기술을 다룹니다. 데이터 유출을 방지하기 위해 엄격하게 검토되었으며, 정답 여부 판단을 위한 MARJ(Model-Assistant Rule-based Judgment) 파이프라인도 함께 개발되었습니다. 31개의 주요 LLM을 평가한 결과, OpenAI-o1-mini가 49.8%의 정확도를 달성했으며, 수학 능력뿐 아니라 강력한 물리 추론 능력을 갖춘 모델의 필요성을 강조했습니다. UGPhysics와 MARJ는 물리 추론 분야의 AI 발전을 촉진할 것으로 기대됩니다. 코드와 데이터는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
학부 수준 물리학 추론 능력을 종합적으로 평가할 수 있는 대규모 벤치마크 UGPhysics를 제공합니다.
LLM의 물리학 추론 능력의 현황과 한계를 명확하게 보여줍니다.
물리학 추론 능력 향상을 위한 연구 방향을 제시합니다.
정확한 평가를 위한 MARJ 파이프라인을 개발했습니다.
한계점:
현재 벤치마크의 정확도가 50% 미만으로, LLM의 물리학 추론 능력이 여전히 부족함을 시사합니다.
UGPhysics가 학부 수준 문제에 국한되어 있어, 더 높은 수준의 물리학 문제에 대한 LLM의 성능은 평가하지 못합니다.
MARJ 파이프라인의 일반화 가능성과 신뢰성에 대한 추가적인 검증이 필요합니다.
다양한 유형의 물리 문제를 더욱 포괄적으로 다루기 위한 벤치마크 확장이 필요할 수 있습니다.
👍