Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Attention as an Adaptive Filter

Created by
  • Haebom

저자

Peter Racioppo

개요

Adaptive Filter Attention (AFA)는 학습 가능한 동적 모델을 어텐션 가중치 계산에 직접 통합하는 새로운 어텐션 메커니즘입니다. 쿼리와 키를 직접 비교하는 대신, 입력 시퀀스를 선형 확률 미분 방정식(SDE)의 이산 관측값으로 모델링합니다. 동시에 대각화 가능한 상태 행렬과 잡음 공분산을 갖는 선형 동적 모델을 부과함으로써, 미분 Lyapunov 방정식에 대한 폐쇄형 해를 사용하여 쌍별 불확실성을 효율적으로 전파합니다. 어텐션은 이 선형 SDE에 대한 최대 우도 해로 자연스럽게 나타나며, 어텐션 가중치는 전파된 쌍별 정밀도의 견고한 잔차 기반 재가중치에 해당합니다. 상태 행렬의 고유값에 추가적인 제약 조건을 부과하면 표준 어텐션과 동일한 계산 및 메모리 복잡성을 갖는 단순화된 변형이 발생합니다. 동적 및 프로세스 노이즈가 사라지는 극한에서, 그리고 작은 각도 근사를 사용하면 일반적인 내적 어텐션을 복구합니다.

시사점, 한계점

새로운 어텐션 메커니즘인 Adaptive Filter Attention (AFA) 제안
학습 가능한 동적 모델을 어텐션 가중치 계산에 통합
선형 SDE를 사용하여 입력 시퀀스를 모델링
표준 어텐션과 동일한 계산 및 메모리 복잡성을 가진 단순화된 변형 존재
동적 및 프로세스 노이즈가 사라지는 극한에서 표준 어텐션 복구
👍