[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ZebraLogic : sur les limites d'évolutivité des LLM pour le raisonnement logique

Created by
  • Haebom

Auteur

Bill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi

Contour

Cet article étudie la capacité de raisonnement logique des modèles de langage à grande échelle (MLL) et leur évolutivité dans le raisonnement non monotone complexe. Nous introduisons un cadre d'évaluation complet appelé ZebraLogic pour évaluer les performances de l'inférence LLM sur des puzzles de treillis logiques dérivés de problèmes de satisfaction de contraintes (PSC). ZebraLogic génère des puzzles de complexité contrôlable et quantifiable, permettant une étude systématique des limites d'évolutivité de modèles tels que Llama, les modèles o1 et DeepSeek-R1. Il fournit un environnement structuré pour évaluer l'inférence à des niveaux de difficulté croissants, incluant divers espaces de recherche et contraintes logiques. Les résultats expérimentaux montrent que la précision diminue significativement avec la complexité du problème (le fléau de la complexité). Ces limites persistent même avec des modèles plus grands et des temps de calcul d'inférence accrus, suggérant des limites inhérentes aux capacités d'inférence LLM actuelles. Nous explorons également des stratégies pour améliorer le raisonnement logique, notamment l'échantillonnage au meilleur de N, les mécanismes de retour en arrière et les invites auto-vérifiables.

Takeaways, Limitations

Takeaways : Un nouveau cadre (ZebraLogic) est présenté pour évaluer systématiquement les limites d'évolutivité du raisonnement logique de LLM. Le phénomène de dégradation des performances de raisonnement de LLM (la malédiction de la complexité) est découvert et ses causes sont analysées. Des stratégies potentielles pour améliorer les performances de raisonnement de LLM sont présentées (échantillonnage Best-of-N, retour en arrière, invites d'auto-vérification).
Limitations: Démontre que la capacité de raisonnement logique du LLM actuel présente des limites inhérentes, qui ne peuvent être entièrement surmontées par une simple augmentation de la taille du modèle ou du temps de calcul. Des recherches supplémentaires sont nécessaires pour déterminer si les résultats de l'évaluation utilisant le cadre ZebraLogic peuvent être généralisés à tous les types de problèmes de raisonnement logique. L'efficacité des stratégies d'amélioration proposées peut varier selon le type et la complexité du problème.
👍