Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Attention as an Adaptive Filter

Created by
  • Haebom

저자

Peter Racioppo

개요

Adaptive Filter Attention (AFA)을 소개합니다. AFA는 학습 가능한 동역학 모델을 어텐션 가중치 계산에 직접 통합하는 새로운 어텐션 메커니즘입니다. 쿼리와 키를 직접 비교하는 대신, 입력 시퀀스를 선형 확률 미분 방정식(SDE)의 이산 관측치로 모델링합니다. 동시에 대각화 가능한 상태 행렬과 노이즈 공분산을 갖는 연속 시간 선형 시불변 시스템을 가정하여, 미분 Lyapunov 방정식의 폐쇄형 해를 사용하여 키에서 쿼리로의 동역학을 통해 불확실성을 효율적으로 전파합니다. 이 선형 SDE의 궤적을 필터링하기 위한 최대 우도 해로서 어텐션이 자연스럽게 나타나며, 어텐션 가중치는 전파된 쿼리-키 정밀도의 견고한 잔차 기반 재가중치에 해당합니다. 또한 시스템 동역학과 노이즈를 제약하여 표준 어텐션과 동일한 계산 및 메모리 복잡성을 갖는 단순화된 변형을 얻습니다. 감쇠 및 프로세스 노이즈가 0이고 작은 각도 근사를 사용하는 경우, 회전 위치 인코딩을 사용하여 일반적인 점곱 어텐션의 복소수 값 일반화를 복구합니다.

시사점, 한계점

학습 가능한 동역학 모델을 어텐션 계산에 통합하여 어텐션 메커니즘의 새로운 접근 방식을 제시
선형 SDE 모델링을 통해 쿼리-키 간의 불확실성을 효율적으로 전파
표준 어텐션과 동일한 계산 및 메모리 복잡성을 갖는 단순화된 AFA 변형 제시
회전 위치 인코딩을 사용하여 점곱 어텐션의 복소수 값 일반화를 복구
논문에서 구체적인 실험 결과나 실제 성능 비교에 대한 정보는 부족함
선형 SDE 모델의 제약 조건과 가정이 성능에 미치는 영향에 대한 분석 필요
AFA의 최적 hyperparameter 설정에 대한 연구가 필요
👍