Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Soft-TransFormers para el aprendizaje continuo

Created by
  • Haebom

Autor

Haeyong Kang, Chang D. Yoo

Describir

Inspirado en la Hipótesis del Billete de Lotería Bien Inicializado (HBIT), este artículo propone Soft-Transformers (Soft-TF), un novedoso método de aprendizaje continuo (CL) completamente optimizado que entrena y selecciona secuencialmente redes blandas óptimas para cada tarea. Soft-TF mantiene fijos los parámetros de las capas preentrenadas durante el aprendizaje continuo, a la vez que optimiza los pesos de las capas dispersas mediante máscaras Soft-TF bien inicializadas para obtener redes blandas (de valor real) adaptativas a la tarea. Durante la inferencia, la red adaptativa a la tarea identificada enmascara los parámetros de la red preentrenada para asignarla a la solución óptima para cada tarea, minimizando el olvido catastrófico (CF). El enmascaramiento suave preserva el conocimiento de la red preentrenada. Amplios experimentos con el Transformador de Visión (ViT) y el Transformador de Lenguaje (Bert) demuestran la eficacia de Soft-TF, logrando un rendimiento de vanguardia en escenarios de aprendizaje incremental (CIL) de visión y clases de lenguaje.

Takeaways, Limitations

Takeaways:
Se presenta un método novedoso para aplicar eficazmente la hipótesis del billete de lotería bien inicializado al aprendizaje continuo.
Solución efectiva del problema del olvido fatal utilizando redes blandas adaptativas a tareas.
Los experimentos con ViT y Bert demuestran un rendimiento de última generación en los dominios de la visión y el lenguaje.
Preservar eficazmente el conocimiento de redes pre-entrenadas a través de técnicas de enmascaramiento suave.
Limitations:
Falta de análisis del coste computacional y la complejidad del método propuesto.
Se necesita una mayor validación del rendimiento de generalización en diversos conjuntos de datos y tareas.
Se necesita una explicación más detallada de la estrategia de optimización para las máscaras Soft-TF.
Posibles dependencias de arquitecturas específicas (ViT, Bert).
👍