Sign In

RASD: Retrieval-Augmented Speculative Decoding

Created by
  • Haebom
Category
Empty

저자

Guofeng Quan, Wenfeng Feng, Chuzhan Hao, Guochao Jiang, Yuewei Zhang, Hao Wang

개요

본 논문은 대규모 언어 모델(LLM)의 추론 속도를 높이기 위한 새로운 방법인 RASD(Retrieval-Augmented Speculative Decoding)를 제안합니다. 기존의 추측적 디코딩 방법들은 경량 모델이나 추가적인 모델 구조를 사용하여 초안 토큰을 생성하고 데이터베이스에서 컨텍스트를 검색하는데, 이는 도메인 외부 상황에서 효율성이 떨어지는 문제점이 있습니다. RASD는 검색 기법을 활용하여 모델 기반 추측적 디코딩을 개선합니다. 트리 가지치기와 트리 융합을 통해 초안 모델의 확률 분포를 기반으로 최적의 검색 트리를 구성하고, 최장 접두사 일치 알고리즘을 사용하여 초안 모델이 생성한 트리와 검색 트리를 통합하여 검증을 위한 단일 트리를 만듭니다. 실험 결과, RASD는 DocQA, 요약, 코드 생성, 도메인 내 QA 등 다양한 작업에서 최첨단 추론 가속 성능을 달성하며, 다양한 추측적 디코딩 방법과의 호환성도 높습니다.

시사점, 한계점

시사점:
기존 모델 기반 추측적 디코딩의 도메인 외부 성능 저하 문제를 검색 기법을 통해 효과적으로 해결.
트리 가지치기 및 융합 기법을 통해 추론 속도를 획기적으로 향상.
DocQA, 요약, 코드 생성, 도메인 내 QA 등 다양한 작업에서 최첨단 성능 달성.
다양한 추측적 디코딩 방법과의 높은 호환성을 통해 확장성 확보.
한계점:
본 논문에서 제시된 방법의 계산 복잡도 및 메모리 사용량에 대한 자세한 분석이 부족.
다양한 크기와 유형의 LLM에 대한 실험 결과가 제한적일 수 있음.
특정 도메인에 대한 성능 향상 정도가 다른 도메인에 비해 상대적으로 높거나 낮을 가능성 존재.
👍