[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Hacia la verificación formal del código generado por LLM a partir de indicaciones de lenguaje natural

Created by
  • Haebom

Autor

Aaron Concejal, David Fu, Aryan Gupta, Chengxiao Wang, David Grove, Yu-Xiong Wang, Vikram Adve

Describir

En este artículo, proponemos Astrogator, un sistema que introduce un lenguaje de consulta formal para aclarar la intención del usuario y verificar la corrección del código generado. Esto soluciona el problema de errores de los modelos de lenguaje a gran escala (LLM) que generan código basándose en descripciones en lenguaje natural. Astrogator se basa en el lenguaje de programación Ansible y consta de un lenguaje de consulta formal, un método computacional que representa el comportamiento del programa Ansible y un intérprete simbólico para la verificación. En una prueba comparativa de 21 tareas de generación de código, se verificó código correcto en el 83 % de los casos y se identificó código incorrecto en el 92 %.

Takeaways, Limitations

Takeaways:
Presentamos un enfoque novedoso para mejorar la precisión de la generación de código basada en LLM.
La verificación formal permite comprobar si la intención del usuario coincide con el código generado.
El potencial de permitir la programación en lenguaje natural incluso para usuarios con conocimientos de programación limitados.
Mayor eficiencia en la generación y verificación de código para lenguajes específicos como Ansible.
Limitations:
Astrogator es específico del lenguaje Ansible y puede tener una extensibilidad limitada a otros lenguajes de programación.
El tamaño de referencia es relativamente pequeño, por lo que se requiere más investigación sobre generalización.
Se debe tener en cuenta la facilidad de uso y los costos de aprendizaje de los lenguajes de consulta formales.
Es posible que no detecte perfectamente todos los tipos de errores de código (83 % de precisión; 92 % de precisión no significa precisión perfecta).
👍