Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Enrutamiento analítico de subespacios: cómo funcionan los mínimos cuadrados recursivos en el aprendizaje continuo de un modelo de lenguaje extenso

Created by
  • Haebom

Autor

Kai Tong, Kang Pan, Xiao Zhang, Erli Meng, Run He, Yawen Cui, Nuoyan Guo, Huiping Zhuang

Describir

En este artículo, proponemos una técnica de enrutamiento analítico de subespacios (ASR) para resolver el problema del aprendizaje continuo (CL) de los modelos de lenguaje a gran escala (LLM). Las técnicas de aprendizaje continuo existentes presentan el problema de reutilizar datos previos, lo que genera costos computacionales adicionales o utiliza módulos de eficiencia de un solo parámetro, lo que limita la absorción de nuevo conocimiento. ASR separa el aprendizaje dentro del subespacio de características de la capa profunda para cada tarea, eliminando así la interferencia de conocimiento entre tareas. Además, utiliza eficientemente el conocimiento aprendido en varios subespacios mediante un mecanismo de enrutamiento analítico. Aprende un modelo de enrutador multitarea mediante el método recursivo de mínimos cuadrados, lo que permite que el enrutador se adapte dinámicamente a los datos entrantes sin acceder a datos anteriores, asignando la tarea actual a un subespacio apropiado y garantizando la propiedad de no olvido para las tareas previamente aprendidas. Los resultados experimentales muestran que ASR supera eficazmente las limitaciones de los métodos existentes al integrar fluidamente la nueva información y mantener el conocimiento previo casi a la perfección.

Takeaways, Limitations

Takeaways:
Presentar una solución efectiva al problema de aprendizaje continuo de LLM: resolver los problemas de aumento del costo computacional y la interferencia del conocimiento de los métodos existentes __T7910_____.
Validación de la superioridad de la técnica de enrutamiento analítico del subespacio (ASR): demostración experimental de una retención casi perfecta del conocimiento previo y una integración fluida de nueva información.
Utilización eficiente de modelos de enrutadores multitarea: adaptación dinámica sin acceder a datos pasados ​​y garantizando propiedades sin olvido.
Limitations:
Momento de la publicación del código: Después de la aceptación del artículo: Existen limitaciones para la verificación de la reproducibilidad inmediata.
Falta de una descripción detallada de la estrategia de asignación de subespacio para tareas específicas: puede ser necesario un análisis adicional para determinar qué aspectos pueden afectar el rendimiento de ASR.
Es necesario verificar la generalización a diferentes arquitecturas y tareas LLM: los resultados experimentales en un entorno limitado no garantizan el rendimiento en otros entornos.
👍