Sign In

Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

Created by
  • Haebom
Category
Empty

저자

Zilong Wang, Zifeng Wang, Long Le, Huaixiu Steven Zheng, Swaroop Mishra, Vincent Perot, Yuwei Zhang, Anush Mattapalli, Ankur Taly, Jingbo Shang, Chen-Yu Lee, Tomas Pfister

개요

본 논문은 소규모 전문가 LLM을 이용해 다양한 관점의 RAG 초안을 병렬로 생성하고, 대규모 일반화 LLM을 이용하여 효율적으로 검증하는 Speculative RAG 프레임워크를 제안합니다. 소규모 LLM을 이용해 초안 생성을 위임하고 대규모 LLM을 검증에만 사용함으로써 RAG의 속도를 높입니다. 각 초안은 서로 다른 검색 문서 하위 집합에서 생성되어, 긴 컨텍스트에서의 위치 편향을 완화하고 각 하위 집합에 대한 이해도를 높입니다. TriviaQA, MuSiQue, PopQA, PubHealth, ARC-Challenge 벤치마크에서 최첨단 성능과 감소된 지연 시간을 달성함을 실험적으로 보여줍니다. 특히 PubHealth에서 정확도는 최대 12.97% 향상, 지연 시간은 50.83% 감소했습니다.

시사점, 한계점

시사점:
소규모 전문가 LLM과 대규모 일반화 LLM을 결합하여 RAG의 효율성과 정확도를 동시에 향상시킬 수 있음을 보여줍니다.
병렬 처리를 통해 RAG의 속도를 크게 개선할 수 있음을 입증합니다.
다양한 검색 문서 하위 집합을 사용하여 위치 편향 문제를 완화하고 모델의 이해도를 높일 수 있습니다.
여러 벤치마크에서 기존 RAG 시스템보다 우수한 성능을 달성했습니다.
한계점:
제안된 프레임워크의 성능 향상은 특정 벤치마크에 국한될 수 있습니다. 다른 유형의 데이터셋이나 질문에 대한 일반화 성능은 추가 연구가 필요합니다.
소규모 전문가 LLM과 대규모 일반화 LLM을 모두 필요로 하므로, 자원 소모가 클 수 있습니다.
전문가 LLM의 전문 분야 선택 및 훈련에 대한 자세한 내용이 부족합니다.
👍