대규모 언어 모델은 대규모 어휘집에 대한 출력 레이어 계산으로 인해 추론 시 상당한 계산 병목 현상에 직면합니다. 본 논문에서는 각 디코딩 단계에 대해 작은 하위 어휘집을 구성하기 위해 기하학적 상한을 사용하는 새로운 접근 방식인 CSV-Decode를 제시합니다. 이는 정확한 top-k 인증 및 ε-인증 softmax 근사라는 이중 정확성 보장을 유지하면서 효율적인 희소 계산을 가능하게 합니다. CSV-Decode는 오프라인에서 어휘 임베딩을 클러스터링하고 중심점-플러스-반경 경계를 사용하여 계산에서 안전하게 생략할 수 있는 토큰을 식별합니다. 또한 희소 GEMV 커널, 멀티 GPU 샤딩 및 CUDA Graph 최적화를 갖춘 완전한 시스템 구현을 제공합니다. 실험 결과는 분포 보장 및 낮은 폴백 속도를 유지하면서 전체 어휘 디코딩보다 상당한 속도 향상을 보여줍니다.