Speculative Decoding Reimagined for Multimodal Large Language Models
Created by
Haebom
저자
Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Rongrong Ji
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 추론 속도를 높이기 위한 다중 모달 예측 디코딩(MSD) 기법을 제안합니다. 기존의 예측 디코딩은 대규모 언어 모델(LLM)의 속도를 높이는 데 효과적이었지만, MLLM에는 효과적이지 못했습니다. 본 논문에서는 MLLM의 특성을 분석하여 두 가지 설계 원칙을 제시합니다. 첫째, 텍스트와 시각 토큰은 근본적으로 다른 특성을 가지므로 초안 생성 단계에서 별도로 처리되어야 합니다. 둘째, 언어 모델링 능력과 시각 인식 능력 모두 초안 모델에 중요합니다. 이를 위해 MSD는 초안 모델에서 텍스트와 시각 토큰을 분리하고, 두 단계의 학습 전략을 사용합니다. 첫 번째 단계에서는 텍스트 전용 지시 조정 데이터셋을 사용하여 언어 모델링 능력을 향상시키고, 두 번째 단계에서는 점진적으로 다중 모달 데이터를 도입하여 시각 인식 능력을 향상시킵니다. 실험 결과, MSD는 LLaVA-1.5-7B의 경우 최대 2.29배, LLaVA-1.5-13B의 경우 최대 2.46배의 추론 속도 향상을 보였습니다. 코드는 https://github.com/Lyn-Lucy/MSD 에서 확인할 수 있습니다.