본 논문은 소형 언어 모델을 위한 잠재 다중 헤드 어텐션(MLA)에 대한 첫 번째 종합적인 연구를 제시하며, 효율성과 품질 간의 흥미로운 절충 관계를 밝힙니다. 10만 개의 합성 스토리 데이터셋으로 3천만 파라미터의 GPT 모델을 학습시켜, 표준 다중 헤드 어텐션(MHA), MLA, 그리고 회전 위치 임베딩(RoPE)을 사용한 MLA(MLA+RoPE) 세 가지 아키텍처 변형을 벤치마킹했습니다. 주요 결과는 반 계층 잠재 차원(r=d/2)을 사용하는 MLA+RoPE가 KV-캐시 메모리 사용량을 45% 줄이면서 검증 손실은 0.3%만 증가시켜(본질적으로 MHA 품질과 동일), 메모리 제약 환경에서 배포 시 파레토 개선을 달성한다는 것입니다. 또한 RoPE가 소형 모델에서 MLA에 중요함을 보여줍니다. RoPE 없이는 MLA가 기본 어텐션보다 3~5% 성능이 떨어지지만, RoPE를 사용하면 2% 더 나은 성능을 보입니다. NVIDIA A100 GPU에서의 추론 벤치마킹 결과, r=d/2인 MLA는 메모리 절약을 유지하면서 전체 계층 MLA보다 1.4배 빠른 속도를 달성합니다. GPT-4 평가는 문법, 창의성, 일관성 지표에서 최고 품질 점수(7.4/10)를 달성함을 보여줍니다. 코드와 모델은 수락 후 공개될 예정입니다.