본 논문은 대규모 언어 모델(LLM)의 협업 디코딩 기술을 가속화하는 새로운 프레임워크인 Collaborative decoding via Speculation (CoS)을 제안한다. 기존 협업 디코딩은 높은 계산 비용이 드는 반면, CoS는 Speculative Decoding의 아이디어를 활용하여 작은 모델(proposal model)이 토큰을 생성하고 큰 모델(target model)이 병렬적으로 검증하는 방식으로 속도를 향상시킨다. 핵심 아이디어는 검증 분포를 proposal model과 target model의 결합 분포로 사용하고, proposer와 verifier의 역할을 번갈아 수행하는 것이다. 본 논문은 이 방법을 n개의 모델로 일반화하고, CoS가 표준 협업 디코딩보다 빠르다는 것을 이론적으로 증명하며, 실험을 통해 표준 협업 디코딩보다 1.11배에서 2.23배 빠르다는 것을 보여준다.