Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CP-Bench: Evaluación de modelos de lenguaje grandes para modelado de restricciones

Created by
  • Haebom

Autor

Kostis Michailidis, Dimos Tsouros, Tias Guns

Describir

Este artículo destaca la dificultad de popularizar el modelado de programación con restricciones (CP) debido a su exigente experiencia. Para abordar esta dificultad, presentamos un estudio sobre la automatización del modelado de CP mediante modelos de lenguaje a gran escala (LLM). Para abordar la limitación de los conjuntos de datos de evaluación inherentes a los estudios existentes, presentamos CP-Bench, un nuevo punto de referencia que abarca diversos problemas de optimización combinatoria. Utilizando CP-Bench, comparamos y evaluamos el rendimiento de modelado de los LLM para tres sistemas de modelado de CP con diferentes niveles de abstracción y sintaxis. Evaluamos sistemáticamente métodos de cálculo basados ​​en indicaciones y en tiempo de inferencia, alcanzando una precisión de hasta el 70 %. En particular, demostramos que el uso de un marco de alto nivel basado en Python ofrece un mayor rendimiento.

Takeaways, Limitations

Takeaways:
Presentamos CP-Bench, un nuevo benchmark que demuestra el potencial de la automatización del modelado de CP utilizando LLM.
La eficacia del marco de alto nivel se confirma a través de una evaluación comparativa del desempeño de LLM frente a varios sistemas de modelado de CP.
Sugiere potencial para mejorar la precisión del modelado (hasta un 70%) a través de métodos mejorados para calcular tiempos rápidos de ingeniería e inferencia.
Limitations:
Es posible que el alcance del problema de CP-Bench no cubra por completo todos los problemas de CP del mundo real.
Los sistemas de modelado LLM y CP evaluados podrían ser limitados. Se requiere mayor investigación sobre diversos LLM y sistemas.
Una precisión del 70 % aún sugiere un margen de mejora considerable. Se necesitan LLM más sofisticados y técnicas de ingeniería rápida.
👍