본 논문에서는 GQA 기반의 사전 학습된 모델을 MLA 기반 모델로 원활하게 변환하는 프레임워크인 TransMLA를 제시합니다. TransMLA는 DeepSeek의 코드베이스와 직접 호환되도록 설계되어 vLLM 및 SGlang과 같은 DeepSeek의 특정 최적화 기능을 활용할 수 있습니다. LLaMA-2-7B의 KV 캐시를 93% 압축하여 8K 문맥 길이에서 10.6배의 추론 속도 향상을 달성하면서 의미 있는 출력 품질을 유지합니다. 또한, 여러 벤치마크에서 원래 성능과 동등한 수준을 회복하기 위해 미세 조정에 필요한 토큰 수는 60억 개에 불과합니다. TransMLA는 GQA 기반 모델을 MLA 구조로 마이그레이션하기 위한 실용적인 솔루션을 제공하며, FP8 양자화 및 다중 토큰 예측과 같은 DeepSeek의 고급 기능과 결합하면 더욱 큰 추론 가속화를 실현할 수 있습니다.
시사점, 한계점
•
시사점:
◦
GQA 기반 모델을 MLA 기반 모델로 효율적으로 변환하는 방법을 제시합니다.
◦
DeepSeek의 최적화 기능을 활용하여 추론 속도를 크게 향상시킬 수 있습니다.
◦
미세 조정에 필요한 데이터 양이 적어 효율적인 모델 변환이 가능합니다.
◦
FP8 양자화 및 다중 토큰 예측과 같은 추가적인 최적화를 통해 더욱 향상된 성능을 기대할 수 있습니다.
•
한계점:
◦
TransMLA의 성능 향상이 모든 GQA 기반 모델에 동일하게 적용될지는 추가적인 연구가 필요합니다.
◦
DeepSeek에 종속적인 구조로 인해 다른 인프라 환경에서는 적용에 제약이 있을 수 있습니다.
◦
60억 개의 토큰이라는 미세 조정 데이터 양은 여전히 상당한 양이며, 더욱 효율적인 방법이 필요할 수 있습니다.