本論文は、Retrieval-augmented generation(RAG)で発生する高い推論コストの問題を解決するために、適応コンテキスト圧縮(ACC-RAG)フレームワークを提案します。従来の固定圧縮率方式とは異なり、ACC-RAGは入力質問の複雑さに応じて圧縮率を動的に調整し、効率と精度を同時に向上させます。階層型コンプレッサーとコンテキストセレクターを組み合わせて、人が文章を閲覧するのと同じくらい必要な情報を最小限に抑えます。ウィキペディアと5つのクエリ応答(QA)データセットを使用した実験の結果、ACC-RAGは従来の固定圧縮率方式よりも優れており、標準RAGと比較して4倍以上の高速推論速度を示し、精度を維持または改善しました。