본 논문은 Retrieval-augmented generation (RAG)의 효율성 향상에 초점을 맞추고 있습니다. 기존 Adaptive-RAG (A-RAG)는 여러 번의 상호작용을 통해 생성 품질을 향상시키지만, 반복적인 생성 과정으로 인해 효율성 문제를 야기합니다. 본 논문에서는 A-RAG에서 반복되는 검색 결과의 중복 표현을 줄이는 모델 독립적인 접근 방식을 제시합니다. 캐시 접근과 병렬 생성을 활용하여 prefilling 및 decoding 단계의 속도를 높이고, instruction-driven 모듈을 통해 모델이 콘텐츠에 효과적으로 집중하도록 유도합니다. 실험 결과, prefilling 및 decoding 단계에서 각각 평균 2.79배 및 2.33배의 속도 향상을 달성하면서 생성 품질은 유지했습니다.
시사점, 한계점
•
시사점:
◦
A-RAG의 효율성 문제를 해결하는 모델 독립적인 접근 방식을 제시하여 다양한 A-RAG 모델에 적용 가능성을 높였습니다.
◦
캐시 접근과 병렬 생성을 통해 A-RAG의 속도를 획기적으로 향상시켰습니다. (prefilling 2.79배, decoding 2.33배)
◦
instruction-driven 모듈을 통해 LLM의 콘텐츠 처리 효율성을 개선했습니다.
◦
생성 품질 저하 없이 속도 향상을 달성했습니다.
•
한계점:
◦
제안된 방법의 효율성은 특정 데이터셋과 모델에 따라 달라질 수 있습니다.
◦
모든 종류의 중복을 완벽하게 제거하지 못할 수 있습니다.
◦
instruction-driven 모듈의 설계 및 최적화에 대한 추가적인 연구가 필요할 수 있습니다.