[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

Created by
  • Haebom

作者

ZZ Ren, Zhihong Shao, Junxiao Song, Huajian Xin, Haocheng Wang, Wanjia Zhao, Liyue Zhang, Zhe Fu, Qihao Zhu, Dejian Yang, ZF Wu, Zhibin Gou, Shirong Ma, Hongxuan Tang, Yuxuan Liu, Wenjun

概要

DeepSeek-Prover-V2は、Lean 4でフォーマットされたクリーンアップのために設計されたオープンソースの大規模言語モデルです。 DeepSeek-V3に基づく再帰的クリーンアップ証明パイプラインを介して収集されたデータで初期化されます。複雑な問題を複数のサブ目標に分解するDeepSeek-V3の機能を活用して、コールドスタートトレーニングを進めます。解決されたサブ目標の証明をDeepSeek-V3の段階的な推論と組み合わせて、強化学習のための初期データを生成します。これにより、非形式的および形式的数学的推論を統合する。結果モデルであるDeepSeek-Prover-V2-671Bは、ニューラルネットワーク整理証明の分野で最先端の性能を達成し、MiniF2F-testで88.9%の通過率を記録し、PutnamBenchの658の問題のうち49を解決しました。新しい評価基準として、ProverBench(325の形式化された問題)が導入されました。 AIME問題15件の評価結果6件を解決し、これはDeepSeek-V3の多数決投票方式(8件解決)と比較して形式的、非形式的数学的推論間の格差が大幅に減少していることを示しています。

Takeaways、Limitations

Takeaways:
DeepSeek-Prover-V2はニューラルネットワークのクリーンアップ証明の分野で最先端の性能を達成しました。
形式的推論と非形式的推論を統合する新しいアプローチを提示した。
新しいベンチマークであるProverBenchにより、より幅広い評価が可能になりました。
大規模言語モデルでは,形式的推論と非形式的推論との間のギャップが減少していることを示した。
Limitations:
PutnamBenchとAIMEの問題に対する解決策はまだ完璧ではありません。 (PutnamBenchの場合は49/658、AIMEの場合は6/15)
モデルの推論プロセスの説明力が不足する可能性があります。
ProverBenchの規模をさらに拡大する必要があります。
👍