Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les erreurs de raisonnement du modèle de langage de grande taille proviennent de caractéristiques de problèmes critiques hallucinantes

Created by
  • Haebom

Auteur

Alex Heyman, Joel Zylberberg

Contour

Cet article analyse les causes des erreurs d'inférence dans les modèles de raisonnement en langage large (RLLM) entraînés par la stratégie de la chaîne de pensée (CoT). Nous appliquons le problème de coloration de graphes, un problème logique de satisfaction de contraintes de complexité variable, aux modèles o1-mini, o3-mini, DeepSeek-R1, Claude 3.7 Sonnet, Gemini 2.5 Pro Preview et Grok 3 Mini Beta. Nous constatons qu'un nombre significatif d'erreurs dans tous les modèles proviennent d'arêtes de graphes hallucinantes non explicitement spécifiées dans l'invite. Ce phénomène d'hallucination persiste quels que soient la complexité du problème et le cadre sémantique, et nous confirmons qu'il se généralise aux expériences à petite échelle sur des problèmes d'appariement stables. Cette étude identifie un problème dans lequel les RLLM déforment les caractéristiques du problème et propose une stratégie de conception pour l'atténuer.

Takeaways, Limitations_

Takeaways: Nous avons révélé qu'une part importante des erreurs d'inférence dans les RLLM provient de l'hallucination d'informations contradictoires avec les données d'entrée. Ceci a des implications importantes pour le développement et l'utilisation des RLLM. Cela suggère également la nécessité d'explorer des stratégies de conception pour résoudre le problème de la représentation des erreurs dans les caractéristiques des problèmes.
Limitations: Bien que des conclusions générales aient été tirées des résultats expérimentaux pour les problèmes de coloration de graphes et d'appariement stable, des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de ces résultats à d'autres types de problèmes. L'efficacité de la conception proposée fait défaut.
👍