Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Created by
  • Haebom
Category
Empty

저자

Zhihong Shao, Yuxiang Luo, Chengda Lu, Z. Z. Ren, Jiewen Hu, Tian Ye, Zhibin Gou, Shirong Ma, Xiaokang Zhang

개요

대규모 언어 모델(LLM)이 수학적 추론 능력에서 상당한 발전을 이루었으며, 최종 정답에 대한 보상을 활용한 강화 학습을 통해 AIME 및 HMMT와 같은 경쟁에서 우수한 성적을 거두었지만, 최종 정답 정확성 향상만으로는 올바른 추론을 보장하지 못한다는 근본적인 한계가 존재한다. 본 논문에서는 수학적 추론의 포괄성과 엄격성을 검증하는 데 초점을 맞춰, 정확하고 충실한 LLM 기반 검증자를 훈련하고, 이를 활용하여 증명 생성기를 학습시키는 방법을 연구한다. 또한 생성기의 능력이 향상됨에 따라 검증 계산을 확장하여 새로운 어려운 증명을 자동으로 라벨링하고, 이를 통해 검증자를 더욱 개선하는 전략을 제안한다. DeepSeekMath-V2 모델은 IMO 2025 및 CMO 2024에서 금메달 수준의 성과를, Putnam 2024에서 118/120점을 달성하는 등 강력한 정리를 증명하는 능력을 보여준다.

시사점, 한계점

시사점:
LLM 기반 검증자를 활용하여 수학적 추론의 정확성과 신뢰성을 향상시킴.
증명 생성기와 검증자 간의 간극 유지를 위한 계산 확장 전략 제시.
IMO, CMO, Putnam과 같은 수학 경시대회에서 우수한 성과를 달성하여 모델의 실질적인 성능 입증.
한계점:
모델의 일반화 능력 및 새로운 유형의 수학적 문제에 대한 적응성에 대한 추가 연구 필요.
검증 계산 확장에 필요한 자원 및 비용에 대한 고려 필요.
수학적 지식의 지속적인 업데이트 및 모델 훈련 데이터의 품질 관리의 중요성.
👍