Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps

Created by
  • Haebom

저자

Jie Ou, Jinyu Guo, Shuaihong Jiang, Zhaokun Wang, Libo Qin, Shunyu Yao, Wenhong Tian

개요

본 논문은 Retrieval-augmented generation (RAG)의 효율성 향상에 초점을 맞추고 있습니다. 특히, 복잡한 질의에 효과적으로 대응하기 위해 개발된 Adaptive-RAG (A-RAG)의 효율성 문제를 해결하는 데 중점을 둡니다. A-RAG는 여러 번의 생성 과정을 거치기 때문에 효율성이 떨어지는데, 이는 각 라운드에서 검색 결과의 내용이 상당히 중복되는 경우가 많기 때문입니다. 본 논문에서는 A-RAG 방법에 일반적으로 적용될 수 있는 모델 독립적인 접근 방식을 제시하여 중복된 내용 표현 과정을 줄입니다. 캐시 접근 및 병렬 생성을 사용하여 prefilling 및 decoding 단계를 각각 가속화하고, instruction-driven module을 통해 모델이 각 콘텐츠 부분에 보다 효과적으로 집중하도록 유도합니다. 실험 결과, prefilling 및 decoding 단계에서 각각 평균 2.79배 및 2.33배의 속도 향상을 달성하면서 생성 품질은 유지했습니다.

시사점, 한계점

시사점:
A-RAG의 효율성 문제를 해결하는 모델 독립적인 접근 방식을 제시하여 다양한 A-RAG 모델에 적용 가능함을 보임.
캐시 접근 및 병렬 생성을 통해 A-RAG의 prefilling 및 decoding 단계를 상당히 가속화함.
instruction-driven module을 통해 모델의 콘텐츠 처리 효율을 높임.
생성 품질 저하 없이 속도 향상을 달성함.
한계점:
제안된 방법의 효율성 향상은 특정 데이터셋과 모델에 국한될 가능성이 있음.
다른 유형의 RAG 또는 다른 응용 분야에서의 일반화 가능성에 대한 추가 연구가 필요함.
instruction-driven module의 설계 및 최적화에 대한 자세한 설명이 부족할 수 있음.
👍