D-PACE: Dynamic Position-Aware Cross-Entropy for Parallel Speculative Drafting

작성자

Haebom

카테고리

Empty

저자

Tianyu Wu, Yu Yao, Zhenting Qi, Han Zheng, Zhuohan Wang, Haoran Ma, Lawrence Liao, Himabindu Lakkaraju, Ju Li, Yilun Du

💡 개요

본 논문은 대규모 언어 모델(LLM) 추론 속도를 높이는 병렬 추측 디코딩(speculative decoding)에서 발생하는 문제점을 해결하기 위해 새로운 학습 목표 함수인 D-PACE를 제안합니다. D-PACE는 기존의 고정된 가중치 방식 대신, 각 위치의 수용 확률 기울기에 따라 동적으로 가중치를 조절하여 성능을 향상시킵니다. 이를 통해 훈련 시간 오버헤드 없이 추론 속도와 평균 생성 토큰 길이를 모두 개선하는 성과를 거두었습니다.

🔑 시사점 및 한계

•

D-PACE는 훈련 과정에서 추측 디코딩의 성능 병목 현상을 동적으로 파악하고 이에 집중함으로써 학습 효율을 높일 수 있습니다.

•

고정된 가중치 방식에 비해 더 유연하고 적응적인 학습을 가능하게 하여, 다양한 모델 및 설정에서 일관된 성능 향상을 보여줍니다.

•

본 연구는 D-PACE를 적용했을 때의 훈련 시간 오버헤드가 미미함을 입증하였으나, 다양한 LLM 아키텍처 및 복잡한 디코딩 전략에서의 일반화 성능에 대한 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage