본 논문은 트랜스포머의 자기 주의 메커니즘의 계산 비용을 줄이기 위한 새로운 방법인 ZETA를 제안합니다. 기존의 top-$k$ 어텐션은 인과 관계 마스크로 인해 병렬 처리에 제약이 있었지만, ZETA는 Z-Order Curve를 이용하여 전체 시퀀스에 대한 과거 토큰을 병렬적으로 쿼리할 수 있도록 합니다. 이는 키와 쿼리의 차원을 줄이고, Z-Order Curve를 통해 저차원 키와 쿼리를 1차원 공간으로 매핑하여 병렬 정렬을 가능하게 함으로써 효율성을 크게 향상시킵니다. 실험 결과, ZETA는 합성 Multi-Query Associative Recall 태스크에서 표준 어텐션과 동등한 성능을 보였고, Long Range Arena와 WikiText-103 언어 모델링 태스크에서는 기존 어텐션 및 변형 방법들을 능가하는 성능을 보였습니다.