Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modelos de lenguaje desconectados y listos: Descomposición de expertos en modelos de lenguaje en el momento de la inferencia

Created by
  • Haebom

Autor

Nakyeong Yang, Jiwon Moon, Junseok Kim, Yunah Jang, Kyomin Jung

Describir

Este artículo propone la Descomposición de Expertos (DoE), un novedoso marco para reducir el coste de inferencia de los modelos de lenguaje a gran escala (LLM). DoE define como "expertos" a las neuronas que desempeñan un papel crucial en una tarea específica, identificándolos y activándolos dinámicamente para cada tarea con el fin de acelerar la inferencia. Al recibir una solicitud del usuario, DoE busca expertos para la tarea, realiza la inferencia utilizando únicamente a esos expertos y vuelve al modelo original una vez completada la tarea. Este proceso de cuatro pasos demuestra que DoE logra una aceleración de inferencia de hasta 1,73 veces y una reducción de parámetros del 65 %, manteniendo la precisión. Validamos la eficacia de DoE y la importancia de sus componentes mediante comparaciones con diversos métodos de identificación de expertos y estudios de ablación. También analizamos el impacto del tamaño del lote, el número de tokens y el tipo de capa en la aceleración de la inferencia. DoE es un marco práctico y altamente escalable, aplicable a arquitecturas basadas en Transformers.

Takeaways, Limitations

Takeaways:
Se presenta un método novedoso para reducir eficazmente el costo de inferencia de modelos de lenguaje a gran escala.
Consiga una aceleración de inferencia de hasta 1,73x y una reducción de parámetros del 65% sin comprometer la precisión.
Un marco escalable aplicable a varias arquitecturas basadas en Transformers.
Proporciona información práctica sobre cómo factores como el tamaño del lote, la cantidad de tokens y el tipo de capa afectan la velocidad de inferencia.
Limitations:
Actualmente, presentamos resultados experimentales para solo cinco parámetros de comprensión del lenguaje natural. Se requieren experimentos adicionales con diversas tareas y conjuntos de datos.
El coste computacional del proceso de identificación de expertos puede aumentar con el tamaño del modelo. Se necesita investigación para mejorar la eficiencia de dicho proceso.
Se necesita más investigación sobre la aplicación y la evaluación del rendimiento en entornos de servicio reales.
👍