DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
Created by
Haebom
Category
Empty
저자
Zhihong Shao, Yuxiang Luo, Chengda Lu, Z. Z. Ren, Jiewen Hu, Tian Ye, Zhibin Gou, Shirong Ma, Xiaokang Zhang
개요
대규모 언어 모델(LLM)이 수학적 추론 능력에서 상당한 발전을 이루었으며, 최종 정답에 대한 보상을 활용한 강화 학습을 통해 AIME 및 HMMT와 같은 경쟁에서 우수한 성적을 거두었지만, 최종 정답 정확성 향상만으로는 올바른 추론을 보장하지 못한다는 근본적인 한계가 존재한다. 본 논문에서는 수학적 추론의 포괄성과 엄격성을 검증하는 데 초점을 맞춰, 정확하고 충실한 LLM 기반 검증자를 훈련하고, 이를 활용하여 증명 생성기를 학습시키는 방법을 연구한다. 또한 생성기의 능력이 향상됨에 따라 검증 계산을 확장하여 새로운 어려운 증명을 자동으로 라벨링하고, 이를 통해 검증자를 더욱 개선하는 전략을 제안한다. DeepSeekMath-V2 모델은 IMO 2025 및 CMO 2024에서 금메달 수준의 성과를, Putnam 2024에서 118/120점을 달성하는 등 강력한 정리를 증명하는 능력을 보여준다.
시사점, 한계점
•
시사점:
◦
LLM 기반 검증자를 활용하여 수학적 추론의 정확성과 신뢰성을 향상시킴.
◦
증명 생성기와 검증자 간의 간극 유지를 위한 계산 확장 전략 제시.
◦
IMO, CMO, Putnam과 같은 수학 경시대회에서 우수한 성과를 달성하여 모델의 실질적인 성능 입증.