Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SLED: Decodificación de la evolución autologística para mejorar la facticidad en modelos lingüísticos extensos

Created by
  • Haebom

Autor

Jianyi Zhang, Da-Cheng Juan, Cyrus Rashtchian, Chun-Sung Ferng, Heinrich Jiang, Yiran Chen

Describir

Este artículo propone Self Logits Evolution Decoding (SLED), un novedoso marco de decodificación para mejorar la fiabilidad de salida y la precisión factual de los modelos de lenguaje a gran escala (LLM). SLED aprovecha el conocimiento latente dentro del LLM para mejorar la precisión factual de la salida, sin requerir una base de conocimiento externa ni ajustes adicionales. Compara los logits de salida de las capas final e inicial y utiliza un enfoque de gradiente aproximado para permitir que el conocimiento latente mejore automáticamente la salida. Experimentos exhaustivos en varias familias y tamaños de modelos (1B a 45B), incluyendo Gemma, Qwen, Mixtral y gpt-oss, así como configuraciones de arquitectura avanzadas como MoE, demuestran que SLED mejora consistentemente la precisión factual en comparación con los métodos de decodificación existentes, a la vez que mantiene la fluidez del lenguaje natural y genera una sobrecarga de latencia insignificante. Además, puede combinarse de forma flexible con otros métodos de decodificación para mejorar aún más el rendimiento.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de decodificación que mejora la precisión factual de LLM sin bases de conocimiento externas ni ajustes adicionales.
Es aplicable a diversas arquitecturas y tamaños de modelos y muestra un mejor rendimiento que los métodos existentes.
El rendimiento se puede mejorar combinándolo con otros métodos de decodificación.
Mantenga la fluidez del lenguaje natural y minimice la sobrecarga de latencia.
Limitations:
Es necesaria una mayor verificación de la generalización de los resultados experimentales presentados en este artículo.
Se necesitan más investigaciones para determinar si los efectos de mejora del rendimiento del SLED son consistentes en todos los tipos de LLM y en todas las tareas.
Se necesitan más análisis para abordar la posible degradación del rendimiento debido a las limitaciones del enfoque de gradiente aproximado.
👍