Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Une enquête sur l'extension du contexte du transformateur : approches et évaluation

Created by
  • Haebom

Auteur

Yijun Liu, Jinzheng Yu, Yang Xu, Zhongyang Li, Qingfu Zhu

Contour

Cet article aborde la tâche de traitement de textes longs des modèles de langage à grande échelle (MLL) basés sur Transformer. Les LLM sont performants sur les tâches de textes courts, mais leurs performances se dégradent dans les contextes de textes longs. Pour résoudre ce problème, nous passons en revue systématiquement les études récentes et proposons un système de classification les classant en quatre types : codage positionnel, compression de contexte, augmentation de la récupération et schémas d'attention. De plus, nous organisons les données, tâches et métriques pertinentes en nous basant sur les benchmarks de contexte de textes longs existants, et nous nous concentrons sur l'évaluation de ces contextes, résumons les problèmes non résolus et proposons des perspectives de développement futur.

Takeaways, Limitations

Takeaways:
Fournit une revue systématique et une classification des travaux longs du LLM
Présentation et catégorisation de diverses approches pour le traitement du contexte de textes longs (codage positionnel, compression du contexte, augmentation de la recherche, modèles d'attention)
Organiser les données, les tâches et les indicateurs pertinents pour une évaluation contextuelle à long terme
Proposer des orientations de recherche futures
Limitations:
Cet article se concentre sur l’enquête et la classification des études existantes et ne présente pas de nouvelle méthodologie.
Il est possible que le système de classification proposé ne couvre pas de manière exhaustive toutes les approches de traitement de forme longue.
Absence de discussion claire sur la définition précise et la portée du traitement du contexte long.
👍