본 논문은 Transformer 모델에 망각 게이트(forget gate)를 통합하여 장문맥스트 능력을 향상시킨 새로운 모델인 Forgetting Transformer (FoX)를 제안합니다. 기존 Transformer의 어텐션 스코어에 가중치를 데이터 의존적으로 조절하는 방식으로 망각 게이트 기능을 구현하여, 장문맥스트 언어 모델링, 길이 외삽 및 단문맥스트 하위 작업에서 Transformer보다 우수한 성능을 보입니다. 장문맥스트 하위 작업에서는 Transformer와 동등한 성능을 나타내며, FlashAttention 알고리즘과 호환되고 위치 임베딩이 필요하지 않습니다. Mamba-2, HGRN2, DeltaNet 등 기존 순환 모델과 비교하여 장문맥스트 처리 능력의 우수성을 보여주는 여러 분석 결과도 제시합니다. 또한, 순환 모델의 아키텍처 요소를 통합한 "Pro" 블록 디자인을 도입하여 FoX와 Transformer의 성능을 크게 향상시켰습니다.