Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Synthèse de documents longs de bout en bout à l'aide de la mise en cache de gradient

Created by
  • Haebom

Auteur

Rohit Saxena, Hao Tang, Frank Keller

Contour

Dans cet article, nous proposons une nouvelle méthode de mise en cache de gradient pour les modèles d'encodeur-décodeur (CachED) afin de résoudre les difficultés rencontrées lors de la synthèse de documents longs à l'aide de modèles d'encodeur-décodeur basés sur Transformer, notamment le problème de consommation de mémoire secondaire lors de l'apprentissage. CachED permet un apprentissage de bout en bout en utilisant l'intégralité du document d'entrée sans le tronquer. Il traite les documents d'entrée à l'aide de fenêtres glissantes non superposées, les fusionne dans le décodeur, met en cache les gradients dans le décodeur et les recalcule fragment par fragment via l'encodeur lors de la rétropropagation. Les résultats expérimentaux montrent que le modèle BART peut être étendu avec CachED BART pour atteindre d'excellentes performances sans paramètres supplémentaires tout en traitant plus de 500 000 jetons.

Takeaways, Limitations

Takeaways:
Une nouvelle approche pour résoudre le problème de mémoire du résumé de documents longs à l'aide de modèles basés sur Transformer.
L'apprentissage de bout en bout est possible en utilisant l'intégralité du document sans troncature du document d'entrée.
Améliorer les performances des modèles existants sans paramètres supplémentaires.
A démontré sa capacité à traiter des documents longs de plus de 500 000 jetons.
Limitations:
L’efficacité de CachED peut être sensible à des hyperparamètres tels que la taille de la fenêtre glissante et le chevauchement.
La vérification des performances de généralisation est nécessaire pour d’autres types de tâches de séquence à séquence.
Seuls les résultats expérimentaux pour un modèle spécifique (BART) sont présentés, de sorte que l’applicabilité à d’autres modèles semble limitée.
Des analyses plus approfondies sont nécessaires sur les performances de traitement et l’évolutivité des documents très longs.
👍