Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Sur l'impossibilité fondamentale du contrôle des hallucinations dans les grands modèles de langage

Created by
  • Haebom

Auteur

Micha P. Karpowicz

Contour

Cet article démontre que le contrôle parfait des hallucinations est mathématiquement impossible dans les modèles de langage à grande échelle (MLH). Aucun mécanisme d'inférence LMH ne permet simultanément de générer des réponses véridiques, de préserver l'information sémantique, de divulguer des connaissances pertinentes et d'optimiser les contraintes de connaissances. Cette impossibilité n'est pas une limitation technique, mais un problème fondamental découlant de la structure mathématique de l'agrégation d'informations elle-même. En utilisant trois cadres mathématiques – la théorie des enchères, la théorie du score approprié pour la prédiction probabiliste et l'analyse exponentielle log-somme pour les architectures Transformer – nous montrons que l'agrégation d'informations viole inévitablement le principe de préservation. L'écart de Jensen de l'agrégation de probabilités Transformer est une mesure directe de cette impossibilité. Ces résultats redéfinissent l'hallucination comme une caractéristique mathématique inévitable de l'intelligence distribuée, et non comme une erreur technique. Il existe un compromis fondamental entre la véracité, l'utilisation des connaissances et l'exhaustivité des réponses, et ils fournissent une base de principe pour gérer les hallucinations plutôt que pour les éliminer. Cette étude révèle des liens profonds entre les résultats classiques de l’inférence des réseaux neuronaux, la philosophie de la connaissance et de l’inférence, la théorie des jeux et la théorie de l’information, et suggère de nouvelles directions de recherche pour développer des systèmes d’IA bénéfiques dans le cadre de contraintes mathématiques.

Takeaways, Limitations

Takeaways:
Le LLM offre une compréhension fondamentale du problème des hallucinations en révélant que les hallucinations sont un phénomène mathématiquement inévitable et non un problème d'ingénierie.
En clarifiant les compromis entre la véracité, l’utilisation des connaissances et l’exhaustivité des réponses, nous fournissons une base de principe pour le développement de stratégies de gestion des hallucinations.
Il suggère une nouvelle direction pour la recherche en IA en connectant divers domaines tels que l’inférence des réseaux neuronaux, la philosophie, la théorie des jeux et la théorie de l’information.
Limitations:
Cet article démontre l’impossibilité mathématique d’éliminer complètement les hallucinations, mais ne présente pas de méthodologie spécifique pour les gérer efficacement.
Le cadre mathématique utilisé dans la preuve est complexe et peut être difficile à comprendre pour les chercheurs en IA en général.
Il n’est peut-être pas possible de présenter un modèle mathématique général qui englobe entièrement les phénomènes hallucinatoires du LLM réel.
👍