Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DeepSeek-Prover-V2 : Amélioration du raisonnement mathématique formel par apprentissage par renforcement pour la décomposition des sous-objectifs

Created by
  • Haebom

Auteur

ZZ Ren, Zhihong Shao, Junxiao Song, Huajian

Contour

DeepSeek-Prover-V2 est un modèle de langage open source à grande échelle conçu pour la démonstration formelle de théorèmes en Lean 4. Il est initialisé avec des données collectées via un pipeline de démonstration récursif de théorèmes basé sur DeepSeek-V3. Il effectue un apprentissage à froid en exploitant la capacité de DeepSeek-V3 à décomposer des problèmes complexes en plusieurs sous-objectifs. Les preuves des sous-objectifs résolus sont combinées aux inférences étape par étape de DeepSeek-V3 afin de générer des données initiales pour l'apprentissage par renforcement. Cela intègre le raisonnement mathématique formel et informel. Le modèle résultant, DeepSeek-Prover-V2-671B, atteint des performances de pointe en démonstration de théorèmes sur réseaux neuronaux, avec un taux de réussite de 88,9 % au test MiniF2F et la résolution de 49 problèmes PutnamBench sur 658. Nous introduisons une nouvelle métrique, ProverBench (325 problèmes formalisés), qui inclut 15 problèmes du récent concours AIME (24-25). Les résultats de l'évaluation montrent qu'elle résout 6 des 15 problèmes AIME, ce qui démontre que l'écart entre raisonnement mathématique formel et informel est significativement réduit par rapport à la méthode de vote majoritaire de DeepSeek-V3 (qui résout 8 problèmes).

Takeaways, Limitations

Takeaways:
DeepSeek-Prover-V2 atteint des performances de pointe dans la preuve de théorèmes de réseaux neuronaux.
Nous présentons une nouvelle approche qui intègre le raisonnement formel et informel.
Un nouveau benchmark, ProverBench, permet une évaluation plus large.
Nous montrons que l’écart entre le raisonnement formel et informel se réduit dans les modèles linguistiques à grande échelle.
Limitations:
Les taux de résolution des problèmes PutnamBench et AIME ne sont pas encore parfaits (49/658 pour PutnamBench et 6/15 pour AIME).
Le modèle peut manquer de pouvoir explicatif sur son processus d’inférence.
ProverBench doit encore être étendu.
👍