Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La teoría de la conciencia cognitiva unificada para modelos lingüísticos: anclaje semántico, umbrales de activación y razonamiento emergente

Created by
  • Haebom

Autor

Edward Y. Chang, Zeyneb N. Kaya, Ethan Chang

Describir

La Teoría Cognitiva Unificada de la Conciencia (UCCT) considera la inteligencia de los modelos lingüísticos a gran escala (LLM) no como algo interno, sino como un vasto repositorio inconsciente de patrones. La inferencia solo ocurre cuando mecanismos de anclaje externos (como indicaciones de pocos intentos, contexto aumentado por recuperación, ajuste fino o argumentación multiagente) activan patrones relevantes para la tarea. La UCCT formaliza este proceso como una competencia bayesiana entre los valores estadísticos previos aprendidos durante el preentrenamiento y los patrones objetivo basados en el contexto, lo que proporciona una única explicación cuantitativa que unifica las técnicas adaptativas existentes. Se basa en tres principios (sobrepaso del umbral, universalidad de la modalidad y capacidad predictiva de densidad-distancia) y se valida mediante demostraciones interdominio en control de calidad de texto, generación de subtítulos de imágenes y argumentación multiagente, así como mediante experimentos exhaustivos con modelos numéricos (base 8, 9 y 10) y análisis de rutas capa por capa. Los resultados experimentales respaldan las predicciones de la UCCT al demostrar el comportamiento del umbral, la interferencia asimétrica y la histéresis de la memoria. Al demostrar que la "inteligencia" de LLM no es inherente al modelo, sino que se genera mediante el anclaje semántico, la UCCT proporciona una guía práctica para la ingeniería de diagnósticos e indicaciones interpretables, la selección de modelos y el diseño de sistemas basados en la alineación.

Takeaways, Limitations

Takeaways:
Presentación de un nuevo marco teórico para la inteligencia (UCCT) en LLM
Proporciona orientación práctica sobre ingeniería rápida, selección de modelos y diseño de sistemas impulsado por la alineación.
Contribuyendo a mejorar la interpretabilidad del LLM
Proporciona una única explicación cuantitativa que integra las tecnologías adaptativas existentes.
Verificación de la teoría mediante diversos experimentos
Limitations:
Se necesita más investigación sobre la generalidad y el alcance del UCCT.
El alcance del experimento presentado puede ser limitado.
Se necesita verificar la aplicabilidad para arquitecturas LLM más complejas.
Se necesita una mayor evaluación del rendimiento en aplicaciones del mundo real.
👍