ReSpec (Retrieval-enhanced Speculative Decoding)은 LLM 추론 속도를 높이기 위한 새로운 프레임워크입니다. 이 프레임워크는 불필요한 검색을 방지하기 위해 컨텍스트 예측 가능성을 정량화하는 엔트로피 기반 적응형 트리거, 검색 유틸리티를 최대화하기 위해 여러 고품질 후보를 구성하는 피드백 기반 후보 선택, 정확성과 효율성 간의 균형을 맞추기 위해 모델 생성 초안에 엄격한 검사를 적용하고 검색된 초안에 완화된 검증을 사용하는 소스 인식 완화 검증 전략을 특징으로 합니다. Spec-Bench 실험에서 ReSpec은 EAGLE-2 및 SAM-Decoding보다 각각 33% 및 25% 이상 성능이 향상되었습니다.