CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter
Created by
Haebom
Category
Empty
저자
Yepeng Weng, Dianwen Mei, Huishi Qiu, Xujie Chen, Li Liu, Jiang Tian, Zhongchao Shi
개요
본 논문은 대규모 언어 모델(LLM) 추론 속도를 높이는 추측적 디코딩 기법의 성능 향상을 위한 새로운 프레임워크인 CORAL을 제안합니다. 기존 추측적 디코딩 기법은 훈련과 추론 간의 불일치로 인해 성능 저하 문제를 겪는데, CORAL은 다단계 훈련 과정에서의 일관성을 향상시키는 Cross-Step Representation Alignment 방법을 도입하여 이 문제를 해결합니다. 또한, 추론 속도 저하의 주요 원인인 LM 헤드의 병목 현상을 해결하기 위해 추론 중 LM 헤드 매개변수의 하위 집합만 선택적으로 활성화하는 가중치 그룹화 메커니즘을 제시합니다. 세 가지 LLM 계열과 세 가지 벤치마크 데이터셋에 대한 실험 결과, CORAL은 EAGLE-2 및 HASS와 같은 최첨단 기법보다 우수한 2.50배~4.07배의 속도 향상을 달성했습니다. 이는 CORAL이 훈련-추론 불일치 문제를 효과적으로 완화하고 대규모 어휘를 가진 최신 LLM의 속도를 크게 향상시킨다는 것을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델의 추론 속도를 2.50배~4.07배까지 향상시키는 효과적인 방법 제시.
◦
훈련-추론 간 불일치 문제를 해결하는 새로운 접근 방식 제시 (Cross-Step Representation Alignment).