본 논문은 추론 집약적인 대규모 언어 모델(LLM)의 효율적인 디코딩에 대한 증가하는 수요를 다룹니다. 특히 OpenAI-o3 및 DeepSeek-R1과 같은 확장된 사고 연쇄 추론에 의존하는 아키텍처에서 효율적인 디코딩이 중요합니다. 이 연구는 추론 작업 가속화를 위한 기초적인 통찰력을 확립하기 위해 고밀도 LLM 아키텍처를 통해 예측적 디코딩 기술을 조사합니다. 병렬 초안 검증 주기를 활용하는 예측적 디코딩 방법이 유망한 가속화 기술로 등장했지만, 사전 훈련->SFT->RLHF 훈련 패러다임을 통해 개발된 기존 백본 LLM과 비교하여 디코딩 효율을 지배하는 스케일링 법칙은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 사전 훈련 토큰 볼륨, 초안 모델 용량 및 디코딩 배치 크기의 세 가지 차원에 걸쳐 초안 모델 수용률(또는 디코딩 속도)을 지배하는 로그 선형 스케일링 법칙(정리 1.1, 1.2 및 1.3)을 발견했습니다. 이러한 법칙을 기반으로, 인기 있는 LLM(Llama2/3, Qwen2.5)에 대한 다차원 스케일링을 조정하는 Scylla를 개발했습니다. 실험적 검증 결과, Scylla는 온도 T=0에서 EAGLE2보다 1.5~2.2배 높은 수용률을, EAGLE3보다 0.3배 높은 수용률을 달성했으며, 요약 및 질문응답 작업에서 최고 성능 향상을 보였습니다(그림 2). 산업 추론 엔진 배포는 EAGLE2보다 2배 향상된 디코딩 처리량을 보여주어 효율적인 LLM 추론을 위한 체계적인 스케일링의 혁신적인 잠재력을 입증했습니다(표 5). 코드는 추후 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
추론 집약적인 LLM의 디코딩 속도를 향상시키는 로그 선형 스케일링 법칙을 발견.
◦
다차원 스케일링을 조정하는 Scylla를 통해 기존 방법(EAGLE2, EAGLE3) 대비 향상된 디코딩 속도 및 수용률 달성.
◦
산업 수준의 추론 엔진 배포를 통해 실제 환경에서의 성능 향상 검증.
•
한계점:
◦
코드 공개 전이므로 재현성 검증이 어려움.
◦
특정 LLM(Llama2/3, Qwen2.5)에 대한 실험 결과이므로 다른 LLM에 대한 일반화 가능성은 제한적일 수 있음.