Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Cobblestone : automatisation itérative pour la vérification formelle

Created by
  • Haebom

Auteur

Saketh Ram Kasibatla, Arpan Agarwal, Yuriy Brun, Sorin Lerner, Talia Ringer, Emily First

Contour

Cobblestone est une nouvelle méthode de synthèse de preuves pour l'assistant de preuve Coq. Elle utilise une stratégie de division et de conquête s'appuyant sur un modèle de langage à grande échelle (LLM). Elle utilise les preuves partielles générées par le LLM pour décomposer le problème en sous-problèmes plus petits et identifie automatiquement les sous-problèmes prouvés avec succès. Elle effectue ensuite la preuve itérative sur les sous-problèmes restants pour finalement construire une preuve globale correcte et solide. Les expériences menées sur le projet open source Coq montrent qu'elle surpasse les outils existants, basés ou non sur le LLM, avec un coût moyen de 1,25 $ et une durée d'exécution de 14,7 minutes. Elle peut également accepter des structures de preuves partielles ou des lemmes associés provenant d'utilisateurs ou d'autres outils, prouvant jusqu'à 58 % des théorèmes.

Takeaways, Limitations_

Takeaways:
Malgré l’inexactitude du LLM, nous démontrons que la vérification formelle peut être efficacement automatisée en utilisant des stratégies de division et de conquête et d’exploitation partielle des progrès.
Il atteint des performances supérieures à celles des outils existants basés et non basés sur LLM.
Le processus de preuve peut être amélioré en exploitant les entrées ou les sorties des utilisateurs à partir d’autres outils.
Il est rentable et produit des preuves dans un délai raisonnable.
Limitations:
ÉTant donné qu’il s’agit de résultats d’évaluation pour un projet Coq spécifique, des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité.
Tous les théorèmes ne peuvent pas être prouvés, et la proportion de théorèmes qui peuvent être prouvés est encore limitée.
ÉTant donné que cela dépend des performances du LLM, ses performances peuvent fluctuer à mesure que le LLM se développe.
👍