[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FLAME: Hacia el ajuste fino federado de grandes modelos lingüísticos mediante SMoE adaptativo

Created by
  • Haebom

Autor

Khiem Le, Tuan Tran, Ting Hua, Nitesh V. Chawla

Describir

En este artículo, proponemos FLAME, un nuevo marco para el aprendizaje federado en entornos de cliente con recursos limitados. Los métodos actuales de ajuste fino federado de LoRA adaptables a los recursos utilizan versiones comprimidas de matrices globales de LoRA para acomodar diversos recursos computacionales del cliente, pero presentan una degradación del rendimiento debido a la pérdida de información. FLAME se basa en la arquitectura de mezcla dispersa de expertos (SMoE), que mantiene las matrices globales de LoRA completas sin comprimir, a la vez que varía el número de expertos activados por cliente para lograr la adaptabilidad del lado del cliente. Aborda problemas como la discrepancia en el tamaño de salida debido a activaciones parciales de expertos y el desequilibrio en la calidad del entrenamiento de expertos entre clientes mediante un mecanismo de reequilibrio ligero y un esquema de agregación que tiene en cuenta la activación. Los resultados experimentales en diversos entornos computacionales demuestran que FLAME supera a los métodos existentes.

Takeaways, Limitations

Takeaways:
Abordamos el problema de degradación del rendimiento del aprendizaje federado basado en LoRA existente utilizando la matriz LoRA global completa sin compresión.
La arquitectura SMoE permite una adaptación flexible a los recursos computacionales del cliente.
Aborda eficazmente los desafíos inherentes del aprendizaje federado basado en SMoE a través de un mecanismo de reequilibrio liviano y un enfoque de agregación consciente de la activación.
Demuestra un rendimiento superior a los métodos existentes en una variedad de entornos.
Limitations:
La complejidad de la arquitectura SMoE puede aumentar el tamaño del modelo y la complejidad del entrenamiento.
Es posible que haya espacio para la optimización del mecanismo de reequilibrio liviano propuesto y del enfoque de agregación consciente de la activación.
Es posible que se requieran experimentos adicionales con diferentes distribuciones de datos y entornos de red.
👍