Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CP-Bench : Évaluation de grands modèles de langage pour la modélisation des contraintes

Created by
  • Haebom

Auteur

Kostis Michailidis, Dimos Tsouros, Tias Guns

Contour

Cet article souligne la difficulté de populariser la modélisation par programmation par contraintes (PC) en raison de son expertise exigeante. Pour y remédier, nous présentons une étude sur l'automatisation de la modélisation par PC à l'aide de modèles de langage à grande échelle (MLH). Pour pallier le manque de données d'évaluation inhérent aux études existantes, nous présentons CP-Bench, un nouveau benchmark qui englobe divers problèmes d'optimisation combinatoire. Grâce à CP-Bench, nous comparons et évaluons les performances de modélisation des MLH pour trois systèmes de modélisation par PC présentant différents niveaux d'abstraction et syntaxes. Nous évaluons systématiquement les méthodes de calcul par invite et par inférence, atteignant une précision allant jusqu'à 70 %. Nous démontrons notamment que l'utilisation d'un framework Python de haut niveau offre de meilleures performances.

Takeaways, Limitations

Takeaways:
Nous présentons CP-Bench, un nouveau benchmark démontrant le potentiel de l'automatisation de la modélisation CP à l'aide de LLM.
L’efficacité du cadre de haut niveau est confirmée par une évaluation comparative des performances de LLM par rapport à divers systèmes de modélisation CP.
Suggère un potentiel d'amélioration de la précision de la modélisation (jusqu'à 70 %) grâce à des méthodes améliorées de calcul des temps d'ingénierie et d'inférence rapides.
Limitations:
La portée du problème de CP-Bench peut ne pas couvrir complètement tous les problèmes CP du monde réel.
Les systèmes de modélisation LLM et CP évalués peuvent être limités. Des recherches supplémentaires sont nécessaires sur divers LLM et systèmes.
Une précision de 70 % suggère encore une marge de progression importante. Des LLM plus sophistiqués et des techniques d'ingénierie plus rapides sont nécessaires.
👍