Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CoreThink : une couche de raisonnement symbolique pour raisonner sur des tâches à long terme avec des LLM

Created by
  • Haebom

Auteur

Jay Vaghasiya, Omkar Ghugarkar, Vishvesh Bhat, Vipul Dholaria, Julian McAuley

Contour

CoreThink est une couche d'inférence de pointe basée sur une nouvelle méthode d'inférence appelée General Symbolics. Elle se distingue des paradigmes d'inférence existants tels que la mise à l'échelle en temps de test, le réglage fin supervisé (SFT) et l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Le CoreThink General Symbolic Reasoner (GSR) s'articule autour de trois cas d'utilisation clés : l'invocation d'outils, la génération de code et la planification. Il affiche des performances exceptionnelles sur sept benchmarks dans chaque domaine. Plus précisément, il a obtenu des scores de performance de pointe (SOTA) de 66,66 % sur Livecodebench v6, 89 % sur Instruction-Following Evals et 24,4 % sur ARC-AGI-2. De plus, nous présentons un IDE de codage d'agents développé selon les principes de General Symbolics, atteignant une précision de pointe de 62,3 % sur SWE-Bench Lite. Cette amélioration des performances a été obtenue sans frais de réglage fin ni de formation. La couche d'inférence CoreThink est conçue pour offrir des gains de performance purs, garantissant que la précision des tâches d'inférence du modèle ne se dégrade jamais. Les auteurs affirment que les méthodes existantes entraîneront à terme une baisse des performances du LLM, nécessitant le développement de nouvelles techniques d'inférence. Ce rapport technique détaille l'approche CoreThink à un niveau élevé et la disponibilité des modèles CoreThink pour les cas d'utilisation intensifs en inférence.

Takeaways, Limitations

Takeaways:
Présentation de CoreThink, une nouvelle méthode de raisonnement basée sur la symbolique générale.
Performances exceptionnelles par rapport aux méthodes existantes (SFT, RLVR, etc.) (SOTA obtenu dans plusieurs benchmarks dont Livecodebench v6, Instruction-Following Evals, ARC-AGI-2, SWE-Bench Lite, etc.).
Obtenez des gains de performance sans les coûts de réglage fin et de formation.
Ouverture de modèles pour les cas d'utilisation intensifs en inférence.
Suggérant la nécessité de nouvelles techniques d’inférence pour améliorer les performances du LLM.
Limitations:
Les détails spécifiques de la méthode Symbolique Générale présentés dans cet article ne sont pas décrits en détail.
Bien qu'il ait montré d'excellentes performances dans divers benchmarks, ses performances dans certains benchmarks étaient relativement faibles (par exemple ARC-AGI-2 24,4 %).
Des recherches supplémentaires sont nécessaires sur les performances de généralisation et l’évolutivité de la symbolique générale.
Une validation supplémentaire des applications pratiques et des limites de CoreThink est nécessaire.
👍