Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

P1: Mastering Physics Olympiads with Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Jiacheng Chen, Qianjia Cheng, Fangchen Yu, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Yun Luo, Yufeng Zhao, Futing Wang, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Wenxauan Zeng, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui

개요

대규모 언어 모델(LLM)의 발전이 퍼즐 풀이에서 과학적 수준의 추론으로 이어지고 있으며, 특히 물리학 분야에서 두각을 나타내고 있다. 본 논문에서는 강화 학습(RL)을 통해 훈련된 오픈 소스 물리학 추론 모델인 P1을 소개한다. P1-235B-A22B 모델은 2025년 국제 물리학 올림피아드(IPhO)에서 금메달을 획득하고, 2024/2025년 국제/지역 물리학 대회에서 13개 중 12개의 금메달을 획득했다. 또한, P1-30B-A3B 모델은 IPhO 2025에서 은메달을 획득했다. 에이전트 프레임워크인 PhysicsMinions를 활용한 P1-235B-A22B+PhysicsMinions는 IPhO 2025에서 전체 1위를 차지했으며, 13개 물리학 대회의 평균 최고 점수를 기록했다. P1 모델은 물리학 외에도 수학 및 코딩과 같은 다른 추론 작업에서도 뛰어난 성능을 보여준다.

시사점, 한계점

P1 모델은 오픈 소스 기반으로, 물리학 올림피아드 수준의 문제 해결 능력을 갖춘 최초의 모델이다.
다수의 국제/지역 물리학 대회에서 우수한 성적을 거두어 모델의 실용성을 입증했다.
PhysicsMinions 프레임워크와의 결합을 통해 성능을 더욱 향상시켰다.
물리학 외 다른 추론 task에서도 준수한 성능을 보이며 일반화 가능성을 보여준다.
논문에서 모델의 한계점에 대한 구체적인 언급은 없으나, 모델의 성능이 특정 데이터에 의존할 수 있으며, 훈련 및 추론 과정의 계산 비용이 높을 수 있다. 또한, 모델의 일반화 능력과 실제 물리학 연구에 미치는 영향에 대한 추가적인 연구가 필요하다.
👍