본 논문은 Transformer 모델의 긴 문맥 처리 어려움을 해결하기 위해 새로운 어텐션 메커니즘인 Grouped Cross Attention (GCA)을 제안합니다. GCA는 입력 시퀀스를 청크로 나누고, 각 청크를 사용하여 후속 텍스트 생성에 유용한 과거 청크를 상위 k개만 선택하는 방식으로 동적 문맥을 활용합니다. 기존의 사전 학습된 검색기와 달리, GCA는 후속 토큰의 자기 회귀 손실을 최소화하도록 검색기를 학습하는데, 이를 통해 고정 크기의 어텐션 윈도우로 장거리 정보 접근을 가능하게 합니다. 실험 결과, GCA 기반 모델은 훈련 길이의 1000배에 달하는 16M 문맥 길이에서도 키 검색 정확도가 거의 완벽에 가까운 수준을 달성했습니다.