Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Preentrenamiento de modelos de lenguaje de gran memoria con conocimiento interno y externo

Created by
  • Haebom

Autor

Linxi Zhao, Sofian Zalouk, Christian K. Belardi, Justin Lovelace, Jin Peng Zhou, Kilian Q. Weinberger, Yoav Artzi, Jennifer J. Sun

Describir

Para abordar el problema de la caja negra de los modelos neuronales de lenguaje, este artículo propone un modelo de lenguaje de gran memoria (LMLM) que almacena conocimiento factual tanto en la base de datos externa como en los pesos internos. Durante el proceso de entrenamiento, LMLM enmascara intencionalmente la información factual obtenida externamente, de modo que el modelo aprende a realizar búsquedas orientadas a objetivos en lugar de la simple memorización. Los resultados experimentales muestran que LMLM supera a los modelos de lenguaje basados ​​en conocimiento a gran escala existentes, a la vez que ofrece las ventajas de una base de conocimiento explícita, editable y verificable. Esto representa un cambio fundamental en la forma en que los modelos de lenguaje interactúan con el conocimiento factual y lo gestionan.

Takeaways, Limitations

Takeaways:
Un nuevo enfoque para resolver el problema de la caja negra de los modelos lingüísticos a gran escala
Demostrar la viabilidad de construir modelos de lenguaje con bases de conocimiento explícitas, editables y verificables
Rendimiento competitivo en comparación con los modelos a gran escala existentes logrado en un tamaño de modelo más pequeño
Sugerir un cambio de paradigma en el enfoque de gestión del conocimiento de los modelos lingüísticos
Limitations:
Se necesita más investigación sobre la escalabilidad y el rendimiento de generalización del LMLM propuesto.
Es necesario considerar la gestión y el mantenimiento de bases de datos externas.
Dependencia de la precisión y fiabilidad de bases de datos externas
Necesidad de mejorar la eficiencia del proceso de consulta de bases de datos externas
👍