GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

작성자

Haebom

카테고리

Empty

저자

Fanxu Meng

💡 개요

본 논문은 기존 Multi-head Latent Attention (MLA)의 H100 하드웨어 최적화된 디코딩 경로가 다른 하드웨어에서는 효율성을 저해하고 Multi-Token Prediction (MTP) 이득을 얻지 못하는 문제를 해결하고자 합니다. 이를 위해 Group-Query Latent Attention (GQLA)을 제안하며, 이는 단일 모델 가중치로 H100과 H20 등 다양한 하드웨어에 최적화된 두 가지 디코딩 경로(MQA-absorb 경로 및 GQA 경로)를 제공합니다. GQLA는 사전 학습된 GQA 모델을 변환하는 TransGQLA를 통해 효율적으로 적용될 수 있으며, KV 캐시 압축 및 제로 중복 텐서 병렬 처리를 지원합니다.

🔑 시사점 및 한계

•

하드웨어 적응성 향상: GQLA는 단일 모델 가중치로 다양한 GPU 아키텍처(H100, H20 등)에 최적화된 디코딩 경로를 동적으로 선택하여 효율성을 극대화합니다.

•

성능 및 효율성 개선: MQA-absorb 경로에서는 H100의 성능을 유지하고, GQA 경로에서는 H20과 같은 GPU에서 MTP 이득을 활용하며 KV 캐시를 효과적으로 압축합니다.

•

기존 모델과의 호환성 및 확장성: 별도의 재학습 없이 기존 GQA 모델을 GQLA로 변환할 수 있으며, 8-way 제로 중복 텐서 병렬 처리를 지원하여 확장성을 높입니다.

•

잠재적인 오버헤드: 두 가지 디코딩 경로를 모두 지원하기 위한 구조적 복잡성이 발생할 수 있으며, 특정 하드웨어에서 최적의 성능을 달성하기 위한 추가적인 튜닝이 필요할 수 있습니다.

PDF 보기

Made with Slashpage