[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Descomponer, reestructurar y fusionar: la fusión de modelos en el espacio adecuado mejora la multitarea

Created by
  • Haebom

Autor

Yuatyong Chaichana, Thanapat Trachu, Peerat Limkonchotiwat, Konpat Preechakul, Tirasan Khandhawit, Ekapol Chuangsuwanich

Describir

En este artículo, presentamos Decom-Renorm-Merge (DRM), un método de fusión de modelos para la generación eficiente de modelos multitarea en la era del aprendizaje a gran escala. Los métodos convencionales de fusión de modelos asumen que las entradas en la misma posición en la matriz de ponderaciones realizan la misma función, pero en redes neuronales optimizadas, las neuronas pueden desarrollar diferentes combinaciones de características, lo que dificulta la fusión directa elemento por elemento. DRM utiliza la descomposición en valores singulares (SVD) para descomponer y ajustar la matriz de ponderaciones en un espacio compartido alineado, lo que permite la fusión elemento por elemento. Los resultados experimentales en varios modelos, incluyendo ViT, DeBERTa, T5 y Llama3.1-8B, muestran que DRM supera las técnicas de fusión de vanguardia existentes y, en particular, la renormalización desempeña un papel importante en la generación de un espacio compartido robusto y uniforme.

Takeaways, Limitations

Takeaways:
Sugerir la posibilidad de una fusión eficiente de varios modelos a través de la descomposición y ajuste de la matriz de pesos utilizando SVD.
Superar las limitaciones de la fusión de elementos existentes y demostrar su aplicabilidad a redes neuronales perfeccionadas.
Lograr un mejor rendimiento enfatizando la importancia de la renormalización.
Presentamos amplios resultados experimentales en varias arquitecturas de modelos (codificador, codificador-decodificador, decodificador).
Muestra un rendimiento excelente tanto en configuraciones de ajuste fino completo como de adaptación de rango bajo.
Limitations:
Ausencia de un análisis claro del coste computacional de la operación SVD.
Posible sesgo hacia ciertos tipos de modelos o tareas.
Se necesitan más experimentos con modelos más diversos y complejos.
Se necesita más investigación sobre el rendimiento de generalización de DRM.
👍