# Confidence-Modulated Speculative Decoding for Large Language Models

### 저자

Jaydip Sen, Subhasis Dasgupta, Hetvi Waghela

### 개요

본 논문은 자기회귀 추론 가속화를 위한 효과적인 접근 방식인 추측적 디코딩(speculative decoding)의 한계점을 극복하기 위해 정보이론적 프레임워크를 제안합니다. 기존 방법들은 고정된 초안 길이와 엄격한 검증 기준에 의존하여 모델 불확실성과 입력 복잡성에 대한 적응성이 떨어지는 문제점을 가지고 있습니다. 본 논문에서 제안하는 방법은 초안 생성기의 출력 분포에 대한 엔트로피와 마진 기반 불확실성 측정을 활용하여 신뢰도에 따라 초안 토큰의 수를 동적으로 조절하는 신뢰도 조절 초안 생성(confidence-modulated drafting) 기반의 추측적 디코딩 프레임워크를 제시합니다. 이러한 적응형 메커니즘을 통해 롤백 빈도를 줄이고, 자원 활용률을 높이며, 출력 정확도를 유지합니다. 또한, 동일한 신뢰도 신호를 사용하여 검증 과정을 조절함으로써 생성 품질을 저해하지 않고 초안 토큰을 더욱 유연하게 수용할 수 있습니다. 기계 번역 및 요약 작업에 대한 실험 결과, 표준 추측적 디코딩보다 속도가 크게 향상되는 동시에 BLEU 및 ROUGE 점수가 유지되거나 향상됨을 보여줍니다. 제안된 접근 방식은 다양한 불확실성 조건 하에서 대규모 언어 모델의 효율적이고 강력한 디코딩을 위한 원칙적이고 플러그인 방식의 방법을 제공합니다.

### 시사점, 한계점

- **시사점:**

    - 신뢰도 조절 초안 생성을 통해 다양한 모델 불확실성과 입력 복잡성에 대한 적응력 향상.

    - 롤백 빈도 감소 및 자원 활용률 증대를 통한 추측적 디코딩 속도 향상.

    - BLEU 및 ROUGE 점수 유지 또는 향상을 통한 출력 품질 유지.

    - 대규모 언어 모델의 효율적이고 강력한 디코딩을 위한 원칙적이고 플러그인 방식의 방법 제공.

- **한계점:**

    - 제안된 방법의 성능은 엔트로피 및 마진 기반 불확실성 측정의 정확성에 의존하며, 이러한 측정의 한계가 성능에 영향을 미칠 수 있음.

    - 다양한 모델 아키텍처와 작업 유형에 대한 일반화 성능에 대한 추가적인 연구가 필요함.

    - 특정 작업 또는 모델에 최적화된 하이퍼파라미터 튜닝이 필요할 수 있음.

[PDF 보기](https://arxiv.org/pdf/2508.15371)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
