본 논문은 비전 모델에서 트랜스포머를 통합하는 것이 비전 작업에 상당한 개선을 가져왔지만, 여전히 훈련과 추론 모두에 상당한 양의 계산을 필요로 한다는 점을 지적합니다. 제한된 어텐션 메커니즘은 이러한 계산 부담을 크게 줄이지만, 전역 또는 지역 일관성을 잃는 대가를 치릅니다. 이를 해결하기 위해, 본 논문은 단일 트랜스포머의 어텐션 헤드가 여러 수용 영역에 집중할 수 있도록 하는 간단하면서도 강력한 방법을 제안합니다. StyleGAN 기반 아키텍처에 이 방법(Neighborhood Attention, NA)을 통합하여 StyleNAT이라는 모델을 제시합니다. StyleNAT은 FFHQ에서 2.05의 FID를 달성하여 StyleGAN-XL보다 6% 향상된 성능을 보였으며, 매개변수는 28% 적게 사용하면서 처리량은 4배 향상되었습니다. FFHQ-256에서 Pareto Frontier를 달성했으며 다른 데이터셋에서도 효율적이고 강력한 이미지 생성을 보여줍니다. 코드와 모델 체크포인트는 공개적으로 제공됩니다.