MineDraft: A Framework for Batch Parallel Speculative Decoding

Author

Haebom

저자

Zhenwei Tang, Arun Verma, Zijian Zhou, Zhaoxuan Wu, Alok Prakash, Daniela Rus, Bryan Kian Hsiang Low

💡 개요

본 논문은 기존 순차적인 방식의 추론 속도 저하 문제를 해결하기 위해, 작은 모델로 미리 토큰을 생성하는 "초안 생성(drafting)" 단계와 큰 모델로 검증하는 "검증(verification)" 단계를 병렬로 처리하는 MineDraft 프레임워크를 제안합니다. MineDraft은 두 개의 요청 배치(batch)를 운영하며, 한 배치에서는 초안 생성을, 다른 배치에서는 검증을 동시에 수행하여 초안 생성 지연 시간을 효과적으로 숨깁니다. 이를 통해 기존 초안 생성 방식 대비 처리량 최대 75%, 최종 지연 시간 최대 39% 개선이라는 상당한 성능 향상을 달성했습니다.

🔑 시사점 및 한계

•

처리량 및 지연 시간 획기적 개선: 제안하는 배치 병렬 초안 생성 기법은 기존 대비 추론 성능을 대폭 향상시켜 LLM 서비스의 효율성을 높입니다.

•

실질적인 구현 가능성 입증: vLLM 플러그인 형태로 구현되어 실제 서비스 환경에 적용 가능한 실용성을 보여줍니다.

•

모델 및 작업별 최적화 필요: 현재 제안된 기법이 특정 모델 아키텍처나 작업 유형에 최적화되어 있을 수 있으며, 다양한 모델 및 작업에 대한 추가적인 성능 검증 및 최적화가 필요할 수 있습니다.

PDF 보기

Made with Slashpage