Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Juego de inequivalencia semántica de programas con modelos de lenguaje grandes

Created by
  • Haebom

Autor

Antonio Valerio Miceli-Barone, Vaishak Belle, Ali Payani

Describir

Este artículo presenta un método novedoso para mejorar la capacidad de inferencia de código complejo de los modelos de lenguaje a gran escala (LLM). Si bien los LLM tienen un buen rendimiento en tareas rutinarias de codificación, pueden fallar en tareas complejas que requieren inferencias significativas sobre la semántica del programa. Para abordar este problema, este estudio explora un método para generar sintéticamente datos de entrenamiento de inferencia de código basado en el Juego de Inequidad Semántica (SInQ). Un agente generador genera variantes de programa semánticamente distintas, derivadas de un conjunto de datos de tareas de programación del mundo real, y un agente de evaluación identifica ejemplos de entrada que causan diferencias en el comportamiento del programa original y las variantes generadas. Los dos agentes se entrenan mutuamente de forma semi-antagónica, y demostramos que esta configuración puede, en teoría, mejorar infinitamente mediante auto-juego, asumiendo recursos computacionales infinitos. Validamos la eficacia del método propuesto mediante experimentos en diversos benchmarks de generación y comprensión de código, incluyendo la detección de vulnerabilidades multilingües y el benchmark de intercambio de identificadores integrado en Python. A pesar de estar entrenado exclusivamente en código Python, el método propuesto mejora la detección de vulnerabilidades en código C/C++ y logra mejoras significativas de rendimiento en el benchmark de intercambio de identificadores integrado en Python, un benchmark donde los LLM existentes presentan dificultades. Hemos publicado el código necesario para reproducir el experimento y los datos sintéticos generados, lo que permite a otros investigadores perfeccionar el LLM.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de mejorar la capacidad de razonamiento de código complejo de LLM a través de un método de generación de datos sintéticos basado en juegos de desigualdad semántica (SInQ).
Demuestra el potencial de mejora del rendimiento en problemas de inferencia de código multilingües y de diversos tipos incluso con datos limitados.
Contribuir al avance de la investigación LLM mediante la divulgación de datos sintéticos generados.
Presentando la posibilidad de mejora continua del desempeño basado en el auto-juego.
Limitations:
Es necesario examinar la aplicabilidad de las pruebas teóricas que suponen recursos computacionales infinitos a entornos del mundo real.
Se necesita más investigación sobre la calidad y diversidad de los datos sintéticos generados.
Se necesita una validación adicional para determinar si las mejoras de rendimiento para puntos de referencia específicos se pueden generalizar a todos los demás tipos de problemas de inferencia de código.
Es necesario evaluar el rendimiento de la generalización para problemas de inferencia de código del mundo real complejos y diversos.
👍