본 논문은 Retrieval-augmented generation (RAG)의 효율성 향상에 초점을 맞추고 있습니다. 특히, 복잡한 질의에 효과적으로 대응하기 위해 개발된 Adaptive-RAG (A-RAG)의 효율성 문제를 해결하는 데 중점을 둡니다. A-RAG는 여러 번의 생성 과정을 거치기 때문에 효율성이 떨어지는데, 이는 각 라운드에서 검색 결과의 내용이 상당히 중복되는 경우가 많기 때문입니다. 본 논문에서는 A-RAG 방법에 일반적으로 적용될 수 있는 모델 독립적인 접근 방식을 제시하여 중복된 내용 표현 과정을 줄입니다. 캐시 접근 및 병렬 생성을 사용하여 prefilling 및 decoding 단계를 각각 가속화하고, instruction-driven module을 통해 모델이 각 콘텐츠 부분에 보다 효과적으로 집중하도록 유도합니다. 실험 결과, prefilling 및 decoding 단계에서 각각 평균 2.79배 및 2.33배의 속도 향상을 달성하면서 생성 품질은 유지했습니다.