본 논문은 Transformer 기반 모델의 자기 주의(self-attention) 메커니즘의 계산 및 메모리 비용 문제를 해결하기 위해, 쿼리와 키/밸류 두 차원을 따라 병렬 처리를 활용하는 새로운 방법인 ATTENTION2D를 제시합니다. ATTENTION2D는 근사치를 사용하거나 추가적인 계산 또는 메모리 오버헤드 없이 기존 방법보다 비교적 빠른 훈련 및 추론 속도를 제공하며, 많은 처리 장치에서도 효과적으로 확장 가능합니다. GPT-3와 유사한 모델을 사용한 실험 결과, 다수의 NVIDIA A100 및 H100 GPU를 사용하여 Ring Attention 대비 최대 5배 및 9.4배의 성능 향상을 보였습니다.