본 논문은 Transformer 모델에 망각 게이트(forget gate)를 통합하여 장문맥스트(long-context) 언어 모델링 성능을 향상시킨 Forgetting Transformer (FoX)를 제안합니다. 이는 Transformer의 비정규화된 어텐션 점수에 데이터 의존적인 방식으로 가중치를 줄임으로써 구현됩니다. FoX는 장문맥스트 언어 모델링, 길이 외삽, 단문맥스트 하위 작업에서 Transformer보다 우수한 성능을 보이며, 장문맥스트 하위 작업에서는 Transformer와 유사한 성능을 나타냅니다. 또한 FlashAttention 알고리즘과 호환되고 위치 임베딩이 필요하지 않습니다. Mamba-2, HGRN2, DeltaNet과 같은 순환 시퀀스 모델보다 우수한 장문맥스트 처리 능력을 유지함을 보여주는 여러 분석(needle-in-the-haystack 테스트 포함) 결과를 제시합니다. 더불어, 순환 시퀀스 모델의 일반적인 아키텍처 구성 요소를 통합한 "Pro" 블록 디자인을 도입하여 FoX와 Transformer의 성능을 크게 향상시켰습니다.