Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Compression de contexte dynamique pour un RAG efficace

Created by
  • Haebom

Auteur

Shuyu Guo, Zhaochun Ren

Contour

Cet article propose un cadre de compression adaptative du contexte (ACC-RAG) pour résoudre le problème du coût d'inférence élevé dans la génération augmentée par la recherche (RAG). Contrairement aux méthodes de compression à taux fixe existantes, ACC-RAG ajuste dynamiquement le taux de compression en fonction de la complexité de la question d'entrée, améliorant ainsi l'efficacité et la précision. Combinant un compresseur hiérarchique et un sélecteur de contexte, il ne conserve que le minimum d'informations nécessaires, imitant un processus d'analyse humaine. Les résultats expérimentaux obtenus à partir de Wikipédia et de cinq jeux de données de questions-réponses (QA) démontrent qu'ACC-RAG surpasse les méthodes de compression à taux fixe existantes, atteint une vitesse d'inférence plus de quatre fois supérieure à celle de la RAG standard et maintient, voire améliore, la précision.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle approche pour résoudre efficacement le problème du coût d’inférence du RAG.
Ajuste dynamiquement le taux de compression en fonction de la complexité de l'entrée pour obtenir une amélioration équilibrée de l'efficacité et de la précision.
Il offre une vitesse d’inférence beaucoup plus rapide que la méthode RAG existante.
Nous avons démontré des améliorations de performances sur divers ensembles de données d’assurance qualité.
Limitations:
Les améliorations de performance du modèle ACC-RAG proposé peuvent être biaisées en faveur d’ensembles de données et de types de questions spécifiques.
La conception de compresseurs hiérarchiques et de sélecteurs de contexte est complexe et peut être difficile à mettre en œuvre et à optimiser.
Des recherches supplémentaires sont nécessaires sur les performances et l’évolutivité dans les environnements d’application à grande échelle du monde réel.
👍