CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter
Created by
Haebom
저자
Yepeng Weng, Dianwen Mei, Huishi Qiu, Xujie Chen, Li Liu, Jiang Tian, Zhongchao Shi
개요
본 논문은 대규모 언어 모델(LLM) 추론 속도를 높이는 추측적 디코딩 기법의 성능 향상을 위한 새로운 프레임워크인 CORAL을 제안한다. 기존 추측적 디코딩 방법들은 훈련과 추론 간의 불일치로 인해 성능 저하를 겪는데, CORAL은 다단계 훈련 과정에서의 일관성을 향상시키는 Cross-Step Representation Alignment 기법과 추론 속도의 병목 현상인 LM 헤드의 가중치 그룹핑 메커니즘을 통해 이 문제를 해결한다. 세 가지 LLM 계열과 세 가지 벤치마크 데이터셋을 이용한 실험 결과, CORAL은 EAGLE-2 및 HASS와 같은 최첨단 방법들을 능가하는 2.50x~4.07x의 속도 향상을 달성하여 대규모 어휘를 가진 현대 LLM의 추론 속도를 크게 향상시킨다.
시사점, 한계점
•
시사점:
◦
LLM 추론 속도를 획기적으로 향상시키는 새로운 추측적 디코딩 프레임워크 CORAL 제시.
◦
다단계 훈련 과정의 일관성 향상을 위한 Cross-Step Representation Alignment 기법의 효과 입증.
◦
LM 헤드의 가중치 그룹핑을 통한 추론 지연 감소 효과 입증.
◦
다양한 LLM과 데이터셋에서의 실험을 통해 CORAL의 우수한 성능 검증.
•
한계점:
◦
CORAL의 성능 향상은 특정 LLM 및 데이터셋에 국한될 가능성 존재.
◦
Cross-Step Representation Alignment 및 가중치 그룹핑 메커니즘의 일반화 가능성에 대한 추가 연구 필요.