Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps

Created by
  • Haebom

저자

Jie Ou, Jinyu Guo, Shuaihong Jiang, Zhaokun Wang, Libo Qin, Shunyu Yao, Wenhong Tian

개요

본 논문은 Retrieval-augmented generation (RAG)의 효율성 향상에 초점을 맞추고 있습니다. 기존 Adaptive-RAG (A-RAG)는 여러 번의 상호작용을 통해 생성 품질을 향상시키지만, 반복적인 생성 과정으로 인해 효율성 문제를 야기합니다. 본 논문에서는 A-RAG에서 반복되는 검색 결과의 중복 표현을 줄이는 모델 독립적인 접근 방식을 제시합니다. 캐시 접근과 병렬 생성을 활용하여 prefilling 및 decoding 단계의 속도를 높이고, instruction-driven 모듈을 통해 모델이 콘텐츠에 효과적으로 집중하도록 유도합니다. 실험 결과, prefilling 및 decoding 단계에서 각각 평균 2.79배 및 2.33배의 속도 향상을 달성하면서 생성 품질은 유지했습니다.

시사점, 한계점

시사점:
A-RAG의 효율성 문제를 해결하는 모델 독립적인 접근 방식을 제시하여 다양한 A-RAG 모델에 적용 가능성을 높였습니다.
캐시 접근과 병렬 생성을 통해 A-RAG의 속도를 획기적으로 향상시켰습니다. (prefilling 2.79배, decoding 2.33배)
instruction-driven 모듈을 통해 LLM의 콘텐츠 처리 효율성을 개선했습니다.
생성 품질 저하 없이 속도 향상을 달성했습니다.
한계점:
제안된 방법의 효율성은 특정 데이터셋과 모델에 따라 달라질 수 있습니다.
모든 종류의 중복을 완벽하게 제거하지 못할 수 있습니다.
instruction-driven 모듈의 설계 및 최적화에 대한 추가적인 연구가 필요할 수 있습니다.
👍