[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Formule 1 : mesurer la profondeur du raisonnement algorithmique au-delà de la programmation compétitive

Created by
  • Haebom

Auteur

Gal Beniamini, Yuval Dor, Alon Vinnikov, Shir Granot Peled, ou Weinstein, ou Sharir, Noam Wies, Tomer Nussbaum, Ido Ben Shaul, Tomer Zekharya, Yoav Levine, Shai Shalev-Shwartz, Amnon Shashua

Contour

Dans cet article, nous présentons FormulaOne, un benchmark qui se concentre sur des problèmes de recherche réels plutôt que sur des casse-têtes de programmation compétitifs, afin de révéler les limites des capacités des modèles d'IA de pointe. FormulaOne est composé de problèmes combinant théorie des graphes, logique et algorithmes, et liés à des problèmes d'optimisation à grande échelle du monde réel, tels que le routage, l'ordonnancement et la conception de réseaux. Les problèmes sont générés selon la logique monadique du second ordre (MSO), facile à générer automatiquement, et certains problèmes sont étroitement liés à des problèmes complexes de l'informatique théorique, comme l'hypothèse de temps exponentiel fort (SETH). Les résultats expérimentaux montrent que les modèles de pointe, comme o3 d'OpenAI, résolvent moins de 1 % des problèmes de FormulaOne, ce qui montre qu'ils sont loin d'être maîtrisés par les experts dans certains domaines. Pour soutenir la recherche, nous fournissons également FormulaOne-Warmup, un ensemble de problèmes plus simples avec des distributions similaires.

Takeaways, Limitations_

Takeaways:
Présentation de FormulaOne, une nouvelle référence qui évalue objectivement les limites des modèles d'IA de pointe à travers des problèmes de recherche du monde réel.
La Formule 1 a à la fois des applications pratiques et une importance théorique.
La sous-performance des modèles de pointe suggère clairement un manque de compréhension au niveau des experts dans certains domaines.
Offre une extensibilité pour les recherches futures en suggérant la possibilité de génération automatique de problèmes.
FormulaOne-Warmup fournit une base pour des recherches ultérieures.
Limitations:
L’accent mis par la Formule 1 sur des problèmes de domaine spécifiques peut limiter sa capacité à évaluer les capacités globales des modèles d’IA.
ÉTant donné que nous avons uniquement évalué les performances du modèle utilisé dans le benchmark actuel, une évaluation supplémentaire d’autres modèles est nécessaire.
Des recherches supplémentaires sont nécessaires sur la généralisabilité de la génération de problèmes basée sur la logique MSO.
👍