본 논문은 대규모 언어 모델(LLM) 추론 가속화를 위한 유망한 기법인 추측적 디코딩(SD)의 병렬 처리 성능 향상을 다룹니다. 기존 SD 방법들의 직렬 실행으로 인한 병목 현상을 해결하기 위해, 현대 프로세서의 분기 예측에서 영감을 얻은 새로운 프레임워크인 SpecBranch를 제안합니다. SpecBranch는 병렬 추측 분기를 도입하여 예상되는 거절에 대비하고, 적응적 초안 길이와 암시적/명시적 모델 신뢰도 조합을 통해 병렬 처리를 향상시킵니다. 다양한 모델과 벤치마크에 대한 실험 결과, SpecBranch는 자동 회귀 디코딩 대비 1.8배~4.5배의 속도 향상을 달성하고, 모델 정렬이 잘 되지 않은 경우에도 롤백 토큰을 50% 감소시키면서 동일한 샘플링 분포를 유지합니다.