Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CO-Bench : Analyse comparative des agents de modèles de langage dans la recherche d'algorithmes pour l'optimisation combinatoire

Created by
  • Haebom

Auteur

Weiwei Sun, Shengyu Feng, Shanda Li, Yiming Yang

Contour

Bien que les agents basés sur le LLM aient suscité une attention considérable en génie logiciel et en recherche en apprentissage automatique, leur rôle dans l'avancement de l'optimisation combinatoire (OC) a été relativement peu étudié. Cet article souligne l'absence d'un référentiel complet pour l'investigation systématique, ce qui entrave notre compréhension du potentiel des agents LLM pour la résolution de problèmes structurés et contraints. Pour y remédier, nous présentons CO-Bench, une suite de référentiels contenant 36 problèmes d'OC réels, issus de domaines et de niveaux de complexité variés. CO-Bench intègre des formulations de problèmes structurées et des données organisées pour soutenir une étude rigoureuse des agents LLM. En évaluant plusieurs cadres d'agents par rapport à des algorithmes humains existants, nous découvrons les forces et les limites des agents LLM existants et suggérons des pistes de recherche prometteuses. CO-Bench est accessible au public à l'adresse https://github.com/sunnweiwei/CO-Bench .

Takeaways, Limitations

Takeaways: CO-Bench, un benchmark complet couvrant les problèmes d'optimisation combinatoire réels dans divers domaines et niveaux de complexité, permet une recherche systématique sur les capacités de résolution de problèmes d'optimisation combinatoire des agents LLM. Des évaluations comparatives avec des algorithmes existants identifient les forces et les faiblesses des agents LLM et suggèrent des pistes de recherche futures.
Limitations: Les types et la portée des problèmes inclus dans l'analyse comparative peuvent ne pas refléter pleinement la performance globale des agents LLM. Les cadres d'agents utilisés dans l'évaluation peuvent manquer de diversité. La pertinence de l'analyse comparative peut évoluer à mesure que les nouvelles architectures LLM et les méthodologies de formation évoluent.
👍