Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

$\Mu$KE: Edición de conocimiento no estructurado de Matryoshka de modelos de lenguaje grandes

Created by
  • Haebom

Autor

Zian Su, Ziyang Huang, Kaiyuan Zhang, Xiangyu Zhang

Describir

Este artículo aborda los desafíos de los modelos de lenguaje a gran escala (LLM), que enfrentan desafíos como alucinaciones y riesgos de seguridad debido a las limitaciones de los datos de entrenamiento estáticos. Si bien el paradigma de localizar y editar, que modifica el conocimiento interno del modelo, ha demostrado ser una alternativa rentable al reentrenamiento, los enfoques no estructurados actuales, en particular los métodos autorregresivos basados en ventanas, a menudo alteran las dependencias causales entre las actualizaciones iniciales de memoria y los tokens de salida posteriores. Este estudio analiza teóricamente estas limitaciones y presenta Matryoshka Unstructured Knowledge Editing ($\mu$KE), un novedoso mecanismo de actualización de memoria que preserva estas dependencias mediante objetivos de estilo Matryoshka y coeficientes de pérdida adaptativos. Las evaluaciones experimentales en cuatro puntos de referencia para dos modelos demuestran que $\mu$KE mejora la eficiencia de la edición hasta en un 12,33 % con respecto a los métodos de vanguardia y se mantiene robusto en diversos formatos de edición, lo que destaca el potencial de la edición efectiva de conocimiento no estructurado en LLM.

Takeaways, Limitations

Takeaways:
La edición de conocimiento no estructurado de Matryoshka ($\mu$KE) muestra hasta un 12,33 % más de eficiencia que los métodos tradicionales de edición de conocimiento no estructurado.
Mantiene un gran rendimiento incluso para la edición en varios formatos.
Presentamos un enfoque eficaz para editar el conocimiento informal en los LLM.
Presentamos un mecanismo que mantiene eficazmente las dependencias causales entre las actualizaciones de memoria iniciales y los tokens de salida posteriores.
Limitations:
Se necesita más investigación para determinar la generalidad y escalabilidad del método propuesto.
Se necesita una evaluación adicional del rendimiento de $\mu$KE para varias arquitecturas y tamaños de LLM.
Se requiere una mayor validación de la aplicabilidad y seguridad en entornos del mundo real.
👍