본 논문은 Transformer 기반 모델의 자기 주의 메커니즘(self-attention)의 계산 및 메모리 비용을 줄이기 위한 새로운 접근 방식인 ATTENTION2D를 제시합니다. ATTENTION2D는 self-attention 연산의 query와 key/value 두 차원에 걸쳐 병렬 처리를 활용하여 여러 장치에 걸친 계산의 효율적인 분산 및 병렬화를 가능하게 합니다. 기존 방법들과 달리 근사치를 사용하거나 추가적인 계산 또는 메모리 오버헤드를 발생시키지 않으면서 점근적으로 더 빠른 학습 및 추론 단계를 제공하며, 처리 장치 수 증가에도 효과적으로 확장됩니다. 실험 결과, Ring Attention과 비교하여 GPT-3 유사 모델에서 최대 5배(64개 NVIDIA A100 GPU, 16 노드) 및 최대 9.4배(64개 NVIDIA H100 GPU, 64 노드)의 성능 향상을 보였습니다.