Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

APOLLO : LLM automatisé et collaboration Lean pour un raisonnement formel avancé

Created by
  • Haebom

Auteur

Azim Ospanov, Farzan Farnia, Roozbeh Yousefzadeh

Contour

APOLLO est un système automatisé de démonstration de théorèmes qui combine le compilateur Lean et la puissance de raisonnement de LLM pour démontrer des théorèmes mathématiques. Alors que les méthodes conventionnelles de démonstration de théorèmes basées sur LLM génèrent des preuves qui passent les systèmes de vérification à travers de nombreux (des milliers) d'échantillonnages, APOLLO utilise un pipeline modulaire dans lequel LLM génère les preuves, les agents corrigent les erreurs syntaxiques dans les preuves, Lean identifie les erreurs, isole les sous-théorèmes ratés, utilise un solveur automatique et appelle LLM à moindre coût pour les objectifs restants. Ce processus de recombinaison et de revérification des sous-preuves corrigées est répété jusqu'à un nombre maximal de tentatives contrôlable par l'utilisateur. Sur le benchmark miniF2F, il atteint une précision de 84,9 % pour les modèles de moins de 8 000 paramètres, tout en maintenant un coût d'échantillonnage inférieur à 100. De plus, il améliore la précision de GoedelProverSFT à 65,6 % et réduit la complexité de l'échantillon de 25 600 à plusieurs centaines.

Takeaways, Limitations

Takeaways:
Nous démontrons que les modifications ciblées du guide du compilateur apportées à la sortie LLM améliorent considérablement l’efficacité et la précision.
Présentation d'un paradigme général évolutif pour la démonstration automatique de théorèmes.
Haute précision obtenue à faible coût d'échantillonnage (84,9 % sur le benchmark miniF2F, 65,6 % sur GoedelProverSFT).
Amélioration significative de la précision des modèles à usage général (de 3-7 % à plus de 40 %).
Limitations:
Actuellement, seules les performances pour des benchmarks spécifiques (miniF2F, GoedelProverSFT) sont présentées, et la généralisabilité à d'autres benchmarks ou à des théorèmes plus complexes nécessite des recherches supplémentaires.
Les performances d'APOLLO dépendent des compilateurs LLM et Lean utilisés, et des recherches supplémentaires sont nécessaires sur sa compatibilité et sa portabilité avec d'autres systèmes.
Des recherches supplémentaires sont nécessaires sur l’optimisation des paramètres, comme la définition d’un nombre maximal de tentatives contrôlable par l’utilisateur.
👍