CopySpec: Accelerating LLMs with Speculative Copy-and-Paste Without Compromising Quality
Created by
Haebom
저자
Razvan-Gabriel Dumitru, Minglai Yang, Vikas Yadav, Mihai Surdeanu
개요
CopySpec은 대규모 언어 모델(LLM)이 이전 출력이나 문맥에서 그대로 추출할 수 있는 응답을 생성할 때 발생하는 비효율성을 해결하기 위한 간단하면서도 효과적인 기법입니다. CopySpec은 모델의 채팅 기록이나 문맥에서 반복되는 시퀀스를 식별하고 동일한 토큰이 뒤따를 것이라고 추측하여 출력 품질을 저하시키지 않고 추가 GPU 메모리 없이 원활한 복사를 가능하게 합니다. 본 논문에서는 7개의 LLM과 5개의 데이터셋(MT-Bench, CNN/DM, GSM8K, HumanEval, 그리고 새롭게 생성된 MT-Redundant)을 사용하여 CopySpec의 효과를 평가했습니다. MT-Redundant는 MT-Bench의 두 번째 턴을 첫 번째 턴의 답변에 대한 변형 요청으로 변환하여 사용자가 이전 응답에 대한 수정을 요청하는 실제 시나리오를 시뮬레이션합니다. 실험 결과, CNN/DM에서 최대 2.35배, 특정 MT-Redundant 범주 두 번째 턴에서 3.08배, GSM8K의 자가 수정 작업 세 번째 턴에서 2.66배의 속도 향상을 보였습니다. 특히, CopySpec은 추측적 디코딩과 원활하게 통합되어 MT-Redundant의 두 번째 턴에서 모든 8개 범주에 걸쳐 추측적 디코딩보다 평균 49%의 추가적인 속도 향상을 가져왔습니다. 문맥 크기가 커짐에 따라 추측적 디코딩을 사용하더라도 LLM의 추론 속도가 느려지는 반면, CopySpec은 더 큰 문맥을 활용하여 추론 속도를 높여 더 빠른 보완 솔루션이 됩니다. 코드와 데이터셋은 https://github.com/RazvanDu/CopySpec 에서 공개적으로 이용 가능합니다.