Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Resumen de documentos extensos de extremo a extremo mediante almacenamiento en caché de gradiente

Created by
  • Haebom

Autor

Rohit Saxena, Hao Tang, Frank Keller

Describir

En este artículo, proponemos un novedoso sistema de almacenamiento en caché de gradientes para modelos de codificador-decodificador (CachED) que aborda las dificultades existentes al resumir documentos extensos utilizando modelos de codificador-decodificador basados ​​en Transformer, en concreto, el problema del consumo de memoria secundaria durante el entrenamiento. CachED permite un entrenamiento integral utilizando el documento de entrada completo sin truncarlo. Procesa los documentos de entrada mediante ventanas deslizantes no superpuestas, los fusiona en el decodificador, almacena en caché los gradientes en el decodificador y los recompila fragmento a fragmento a través del codificador durante la retropropagación. Los resultados experimentales muestran que el modelo BART puede extenderse con CachED BART para lograr un rendimiento excelente sin parámetros adicionales al procesar más de 500 000 tokens.

Takeaways, Limitations

Takeaways:
Un nuevo enfoque para resolver el problema de memoria en el resumen de documentos largos utilizando modelos basados ​​en Transformer.
El aprendizaje de extremo a extremo es posible utilizando todo el documento sin truncar el documento de entrada.
Mejorar el rendimiento de los modelos existentes sin parámetros adicionales.
Capacidad demostrada para procesar documentos largos de más de 500.000 tokens.
Limitations:
La eficiencia de CachED puede ser sensible a hiperparámetros como el tamaño de la ventana deslizante y la superposición.
La verificación del rendimiento de generalización es necesaria para otros tipos de tareas de secuencia a secuencia.
Sólo se presentan resultados experimentales para un modelo específico (BART), por lo que la aplicabilidad a otros modelos parece limitada.
Se necesita un análisis adicional sobre el rendimiento del procesamiento y la escalabilidad para documentos muy largos.
👍