Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Forgetting Transformer: Softmax Attention with a Forget Gate

Created by
  • Haebom

저자

Zhixuan Lin, Evgenii Nikishin, Xu Owen He, Aaron Courville

개요

본 논문은 Transformer 모델에 망각 게이트(forget gate)를 통합하여 장문맥스트(long-context) 언어 모델링 성능을 향상시킨 Forgetting Transformer (FoX)를 제안합니다. 이는 Transformer의 비정규화된 어텐션 점수에 데이터 의존적인 방식으로 가중치를 줄임으로써 구현됩니다. FoX는 장문맥스트 언어 모델링, 길이 외삽, 단문맥스트 하위 작업에서 Transformer보다 우수한 성능을 보이며, 장문맥스트 하위 작업에서는 Transformer와 유사한 성능을 나타냅니다. 또한 FlashAttention 알고리즘과 호환되고 위치 임베딩이 필요하지 않습니다. Mamba-2, HGRN2, DeltaNet과 같은 순환 시퀀스 모델보다 우수한 장문맥스트 처리 능력을 유지함을 보여주는 여러 분석(needle-in-the-haystack 테스트 포함) 결과를 제시합니다. 더불어, 순환 시퀀스 모델의 일반적인 아키텍처 구성 요소를 통합한 "Pro" 블록 디자인을 도입하여 FoX와 Transformer의 성능을 크게 향상시켰습니다.

시사점, 한계점

시사점:
Transformer 아키텍처에 망각 게이트를 효과적으로 통합하는 새로운 방법 제시.
장문맥스트 언어 모델링 및 관련 작업에서 Transformer의 성능 향상.
FlashAttention 호환성 및 위치 임베딩 불필요로 효율성 증대.
순환 신경망의 장점과 Transformer의 장점을 결합한 새로운 아키텍처 디자인 제시.
한계점:
본 논문에서 제시된 "Pro" 블록의 일반화 가능성 및 다른 아키텍처로의 적용 가능성에 대한 추가 연구 필요.
다양한 데이터셋 및 작업에 대한 추가 실험 필요.
👍