Cet article propose un cadre de compression adaptative du contexte (ACC-RAG) pour résoudre le problème du coût d'inférence élevé dans la génération augmentée par la recherche (RAG). Contrairement aux méthodes de compression à taux fixe existantes, ACC-RAG ajuste dynamiquement le taux de compression en fonction de la complexité de la question d'entrée, améliorant ainsi l'efficacité et la précision. Combinant un compresseur hiérarchique et un sélecteur de contexte, il ne conserve que le minimum d'informations nécessaires, imitant un processus d'analyse humaine. Les résultats expérimentaux obtenus à partir de Wikipédia et de cinq jeux de données de questions-réponses (QA) démontrent qu'ACC-RAG surpasse les méthodes de compression à taux fixe existantes, atteint une vitesse d'inférence plus de quatre fois supérieure à celle de la RAG standard et maintient, voire améliore, la précision.