본 논문은 대규모 언어 모델(LLM)의 추론 속도를 높이기 위한 새로운 방법인 RASD(Retrieval-Augmented Speculative Decoding)를 제안합니다. 기존의 추측적 디코딩 방법들은 경량 모델이나 추가적인 모델 구조를 사용하여 초안 토큰을 생성하고 데이터베이스에서 컨텍스트를 검색하는데, 이는 도메인 외부 상황에서 효율성이 떨어지는 문제점이 있습니다. RASD는 검색 기법을 활용하여 모델 기반 추측적 디코딩을 개선합니다. 트리 가지치기와 트리 융합을 통해 초안 모델의 확률 분포를 기반으로 최적의 검색 트리를 구성하고, 최장 접두사 일치 알고리즘을 사용하여 초안 모델이 생성한 트리와 검색 트리를 통합하여 검증을 위한 단일 트리를 만듭니다. 실험 결과, RASD는 DocQA, 요약, 코드 생성, 도메인 내 QA 등 다양한 작업에서 최첨단 추론 가속 성능을 달성하며, 다양한 추측적 디코딩 방법과의 호환성도 높습니다.