Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La théorie de la conscience cognitive unifiée pour les modèles de langage : sémantique d'ancrage, seuils d'activation et raisonnement émergent

Created by
  • Haebom

Auteur

Edward Y. Chang, Zeyneb N. Kaya, Ethan Chang

Contour

La théorie cognitive unifiée de la conscience (UCCT) considère l'intelligence des modèles linguistiques à grande échelle (LLM) non pas comme interne, mais comme un vaste référentiel inconscient de schémas. L'inférence ne se produit que lorsque des mécanismes d'ancrage externes (tels que les invites à faible nombre d'images, le contexte augmenté par la récupération, le réglage fin ou l'argumentation multi-agents) activent des schémas pertinents pour la tâche. L'UCCT formalise ce processus comme une compétition bayésienne entre les a priori statistiques appris lors de la pré-formation et les schémas cibles contextuels, fournissant une explication quantitative unique qui unifie les techniques adaptatives existantes. Elle repose sur trois principes (dépassement de seuil, universalité des modalités et pouvoir prédictif densité-distance) et est validée par des démonstrations inter-domaines en assurance qualité de texte, génération de légendes d'images et argumentation multi-agents, ainsi que par des expériences approfondies utilisant des modèles numériques (base 8, 9 et 10) et une analyse de chemin couche par couche. Les résultats expérimentaux étayent les prédictions de l'UCCT en démontrant un comportement de seuil, une interférence asymétrique et une hystérésis de mémoire. En démontrant que l'« intelligence » du LLM n'est pas inhérente au modèle, mais plutôt générée par l'ancrage sémantique, l'UCCT fournit des conseils pratiques pour l'ingénierie de diagnostics et d'invites interprétables, la sélection de modèles et la conception de systèmes pilotés par l'alignement.

Takeaways, Limitations

Takeaways:
Présentation d'un nouveau cadre théorique pour l'intelligence (UCCT) en LLM
Fournit des conseils pratiques sur l'ingénierie rapide, la sélection de modèles et la conception de systèmes axés sur l'alignement.
Contribuer à améliorer l'interprétabilité du LLM
Fournit une explication quantitative unique qui intègre les technologies adaptatives existantes.
Vérification de la théorie par diverses expériences
Limitations:
Des recherches supplémentaires sont nécessaires sur la généralité et la portée de l’UCCT.
La portée de l’expérience présentée peut être limitée.
Une vérification de l’applicabilité pour les architectures LLM plus complexes est nécessaire.
Une évaluation plus poussée des performances dans des applications réelles est nécessaire.
👍