Este artículo propone un marco de compresión de contexto adaptativa (ACC-RAG) para abordar el problema del alto coste de inferencia en la generación aumentada por recuperación (RAG). A diferencia de los métodos de compresión de tasa fija existentes, ACC-RAG ajusta dinámicamente la tasa de compresión según la complejidad de la pregunta de entrada, mejorando así la eficiencia y la precisión. Al combinar un compresor jerárquico y un selector de contexto, retiene únicamente la información mínima necesaria, imitando un proceso de escaneo humano. Los resultados experimentales, utilizando Wikipedia y cinco conjuntos de datos de preguntas y respuestas (QA), demuestran que ACC-RAG supera a los métodos de compresión de tasa fija existentes, alcanza una velocidad de inferencia más de cuatro veces superior a la de la RAG estándar y mantiene o mejora la precisión.