Sign In

CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter

Created by
  • Haebom
Category
Empty

저자

Yepeng Weng, Dianwen Mei, Huishi Qiu, Xujie Chen, Li Liu, Jiang Tian, Zhongchao Shi

개요

본 논문은 대규모 언어 모델(LLM) 추론 속도를 높이는 추측적 디코딩 기법의 성능 향상을 위한 새로운 프레임워크인 CORAL을 제안합니다. 기존 추측적 디코딩 기법은 훈련과 추론 간의 불일치로 인해 성능 저하 문제를 겪는데, CORAL은 다단계 훈련 과정에서의 일관성을 향상시키는 Cross-Step Representation Alignment 방법을 도입하여 이 문제를 해결합니다. 또한, 추론 속도 저하의 주요 원인인 LM 헤드의 병목 현상을 해결하기 위해 추론 중 LM 헤드 매개변수의 하위 집합만 선택적으로 활성화하는 가중치 그룹화 메커니즘을 제시합니다. 세 가지 LLM 계열과 세 가지 벤치마크 데이터셋에 대한 실험 결과, CORAL은 EAGLE-2 및 HASS와 같은 최첨단 기법보다 우수한 2.50배~4.07배의 속도 향상을 달성했습니다. 이는 CORAL이 훈련-추론 불일치 문제를 효과적으로 완화하고 대규모 어휘를 가진 최신 LLM의 속도를 크게 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
대규모 언어 모델의 추론 속도를 2.50배~4.07배까지 향상시키는 효과적인 방법 제시.
훈련-추론 간 불일치 문제를 해결하는 새로운 접근 방식 제시 (Cross-Step Representation Alignment).
LM 헤드 병목 현상을 해결하는 가중치 그룹화 메커니즘 제시.
기존 최첨단 기법(EAGLE-2, HASS)을 능가하는 성능 달성.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 LLM 아키텍처 및 데이터셋에 대한 추가적인 실험 필요.
가중치 그룹화 메커니즘의 최적화 파라미터 설정에 대한 추가적인 연구 필요.
👍