Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FedP$^2$EFT: Aprendizaje federado para personalizar PEFT para LLM multilingües

Created by
  • Haebom

Autor

Royson Lee, Minyoung Kim, Fady Rezk, Rui Li, Stylianos I. Venieris, Timothy Hospedales

Describir

Este artículo se centra en el aprendizaje federado (FL), que permite entrenar modelos lingüísticos a gran escala (LLM) multilingües utilizando datos multilingües diversos y distribuidos, especialmente para idiomas con recursos limitados. La personalización mediante módulos de ajuste fino con eficiencia de parámetros (PEFT), como LoRA, se utiliza habitualmente para mejorar el rendimiento específico del cliente. Esto implica estrategias de personalización (PS), como el diseño de estructuras de adaptadores PEFT (p. ej., capas para añadir LoRA y sus rangos) y la selección de hiperparámetros para el ajuste fino (p. ej., tasas de aprendizaje). En lugar de configurar manualmente los PS, este artículo propone FedP²EFT, un método federado de aprendizaje-personalización para LLM multilingües en un entorno FL multidispositivo. FedP²EFT aprende conjuntamente una estructura PEFT personalizada óptima para cada cliente mediante la selección bayesiana de rangos dispersos. Las evaluaciones en benchmarks de FL multilingües simulados y reales demuestran que FedP²EFT supera significativamente los métodos de ajuste fino personalizados existentes y complementa otros métodos FL existentes.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de personalización basado en el aprendizaje federado (FedP²EFT) para mejorar el rendimiento específico del cliente de los LLM multilingües.
Aprendizaje eficiente de la estructura PEFT óptima y mitigación de problemas de sobreajuste en entornos con pocos datos a través de la selección de rango disperso bayesiano.
Se verifica un rendimiento superior en comparación con los métodos existentes en conjuntos de datos simulados y reales.
Sugiriendo la posibilidad de complementación con varios métodos FL.
Garantizar la reproducibilidad y escalabilidad mediante la divulgación de código fuente abierto.
Limitations:
El rendimiento del método propuesto puede depender del conjunto de datos específico y de la arquitectura LLM.
Se necesita más investigación sobre el rendimiento de la generalización en entornos multilingües reales.
La selección de rango disperso bayesiano puede ser computacionalmente costosa.
Se necesitan experimentos más completos en conjuntos de datos multilingües de diversos tamaños y características.
👍