본 논문은 대규모 언어 모델(LLM) 추론의 지연 시간과 에너지 소모를 줄이기 위한 새로운 프레임워크인 QuickSilver를 제안합니다. LLM 추론의 비용 중 90% 이상을 차지하는 추론 과정의 효율성 향상에 초점을 맞추고 있으며, 기존의 가지치기, 양자화, 조기 종료, 예측적 디코딩과 같은 방법들이 모델 재학습이나 구조 변경을 필요로 하는 것과 달리, QuickSilver는 모델 가중치나 구조를 변경하지 않고도 추론 시간에 의미적 적응성을 가능하게 합니다. QuickSilver는 동적 토큰 중지, KV 캐시 건너뛰기, 문맥적 토큰 융합의 세 가지 기법을 통합하여 GPT-2 및 Llama-2 모델에서 최대 39.6%의 FLOP 감소를 달성하면서도 perplexity 저하를 최소화(<=0.2)합니다.
시사점, 한계점
•
시사점:
◦
모델 구조 변경 없이 추론 속도와 에너지 효율을 크게 향상시킬 수 있는 새로운 방법 제시.