본 논문은 Transformer 모델의 긴 문맥 처리 어려움을 해결하기 위해 새로운 어텐션 메커니즘인 Grouped Cross Attention (GCA)을 제안합니다. GCA는 입력 시퀀스를 청크로 나누고, 각 청크를 이용하여 과거의 관련 청크를 검색하여 이후 텍스트 생성에 활용합니다. 기존의 사전 훈련된 검색기를 사용하는 방식과 달리, GCA는 자기회귀 손실을 최소화하도록 검색기를 학습하는 것이 핵심 혁신입니다. 이를 통해 고정 크기의 어텐션 윈도우로 장거리 정보 접근을 가능하게 하여, 학습 및 추론 과정에서 계산 및 메모리 비용을 크게 줄입니다. 실험 결과, GCA 기반 모델은 16M 문맥 길이에서 거의 완벽한 정확도를 달성하여, 훈련 길이의 1000배에 달하는 성능을 보였습니다.