Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Refinando las estrategias de ajuste fino disperso conscientes de la prominencia para modelos de lenguaje

Created by
  • Haebom

Autor

Xinxin Liu, Aaron Thomas, Cheng Zhang, Jianyi Cheng, Yiren Zhao, Xitong Gao

Describir

Este artículo se centra en el método basado en la dispersión para el ajuste fino de parámetros eficiente (PEFT) (SPEFT). A diferencia de los métodos de adaptación de baja dimensión existentes (p. ej., LoRA), SPEFT introduce una adaptación de dispersión aprendible a la matriz de ponderación del modelo, lo que proporciona una mayor flexibilidad en la selección de parámetros de ajuste fino. Inspirados por el proxy NAS de coste cero, realizamos la primera evaluación sistemática de métricas de importancia para SPEFT y descubrimos que la métrica simple basada en gradiente es fiable y funciona a la par con las mejores alternativas. También comparamos estrategias de enmascaramiento estático y dinámico y descubrimos que el enmascaramiento estático proporciona eficiencia sin degradación del rendimiento, mientras que el enmascaramiento dinámico no proporciona ningún beneficio sustancial. En las tareas de NLP, el SPEFT estático simple basado en gradiente supera consistentemente a otros métodos de ajuste fino LLM, proporcionando una línea de base simple pero efectiva para SPEFT. Este estudio desafía la idea de que la complejidad es necesaria para un PEFT efectivo y proporciona un punto de referencia reproducible para futuras investigaciones a través de un marco de código abierto ([ https://github.com/0-ml/speft]) .

Takeaways, Limitations

Takeaways:
Demostramos experimentalmente que un SPEFT estático basado en gradientes simple supera a otros métodos de ajuste fino LLM.
Demostramos que la estrategia de enmascaramiento estático es más eficiente que el enmascaramiento dinámico y es efectiva sin degradación del rendimiento.
Esto sugiere que los métodos PEFT de alta complejidad no siempre garantizan el mejor rendimiento.
Proporciona un marco de código abierto para mejorar la reproducibilidad de futuras investigaciones.
Limitations:
Hasta la fecha, sólo se han realizado evaluaciones en tareas de PNL, y la generalización a otros dominios o tareas requiere más estudios.
La mejora del rendimiento del método propuesto puede variar según el conjunto de datos y el modelo específicos.
La confiabilidad de las métricas de importancia basadas en gradientes requiere una mayor validación en diferentes modelos y conjuntos de datos.
👍