본 논문은 단일 멀티 GPU 서버에서 DeepSeek-R1 671B 모델을 배포하는 데 있어 Multi-Head Latent Attention (MLA)의 효율적인 추론에 대한 어려움을 해결하기 위해 FlashMLA-ETAP이라는 새로운 프레임워크를 제안합니다. FlashMLA-ETAP은 NVIDIA H20 GPU에서 단일 인스턴스 배포 시나리오를 위한 MLA 추론을 향상시키는 데 초점을 맞추고 있습니다. 핵심은 전치 연산을 통해 어텐션 계산을 재구성하는 Efficient Transpose Attention Pipeline (ETAP)으로, KV 컨텍스트 길이를 WGMMA 연산의 M 차원과 정렬하여 불필요한 계산을 크게 줄입니다. 64K 시퀀스 길이(배치 크기 16)에서 FlashMLA 대비 2.78배의 속도 향상을 달성하며, FlashAttention-3과 FlashInfer에 비해서도 각각 5.24배, 4.94배의 성능 향상을 보입니다. 동시에 수치적 안정성을 유지하며 FlashAttention-3보다 15.2배 낮은 RMSE($(1.25 \times 10^{-5})$)를 기록합니다. ETAP은 FlashAttention-3 및 FlashInfer와 같은 프레임워크와의 원활한 통합을 가능하게 하며, 이론적 분석을 통해 뒷받침됩니다. 자원 제약이 있는 추론 환경에서 확장 가능한 솔루션을 제공하여 중급 GPU의 광범위한 채택을 위한 길을 열어줍니다.