Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cobblestone: Automatización iterativa para la verificación formal

Created by
  • Haebom

Autor

Saketh Ram Kasibatla, Arpan Agarwal, Yuriy Brun, Sorin Lerner, Talia Ringer, Emily First

Describir

Cobblestone es un novedoso método de síntesis de pruebas para el asistente de pruebas Coq, que emplea una estrategia de "divide y vencerás" aprovechando un modelo de lenguaje a gran escala (LLM). Utiliza las pruebas parciales generadas por el LLM para descomponer el problema en subproblemas más pequeños e identifica automáticamente los subproblemas que se han demostrado correctamente. A continuación, ejecuta iterativamente la prueba en los subproblemas restantes para construir una prueba general correcta y sólida. Los experimentos en el proyecto Coq de código abierto demuestran que supera a las herramientas existentes, tanto basadas en LLM como no basadas en LLM, con un coste medio de 1,25 $ y una duración de 14,7 minutos. También acepta estructuras de prueba parciales o lemas relacionados de usuarios u otras herramientas, demostrando hasta el 58 % de los teoremas.

Takeaways, Limitations

Takeaways:
A pesar de la inexactitud del LLM, demostramos que la verificación formal se puede automatizar de manera efectiva utilizando estrategias de dividir y vencer y explotación del progreso parcial.
Logra un rendimiento superior al de las herramientas existentes basadas y no basadas en LLM.
El proceso de prueba se puede mejorar aprovechando la información aportada por el usuario o la salida de otras herramientas.
Es rentable y produce pruebas en un plazo de tiempo práctico.
Limitations:
Dado que estos son resultados de evaluación para un proyecto Coq específico, se necesita más investigación para determinar su generalización.
No todos los teoremas pueden demostrarse, y la proporción de teoremas que pueden demostrarse aún es limitada.
Dado que depende del rendimiento del LLM, su rendimiento puede fluctuar a medida que el LLM se desarrolla.
👍