Revisiting Kernel Attention with Correlated Gaussian Process Representation
Created by
Haebom
Category
Empty
저자
Long Minh Bui, Tho Tran Huu, Duy Dinh, Tan Minh Nguyen, Trong Nghia Hoang
개요
본 논문은 시퀀셜 데이터 모델링에서 최첨단 성능을 보이는 트랜스포머의 모델 불확실성 추정 및 보정 문제를 다룬다. 기존 연구들은 트랜스포머의 어텐션 유닛에 가우시안 프로세스(GP)를 적용하여 불확실성 보정을 수행했으나, GP의 커널 특성상 대칭 어텐션으로 제한되어 모델의 표현 능력이 감소하는 한계가 있었다. 이를 해결하기 위해, 본 논문에서는 두 개의 상관된 GP(CGP) 간의 교차 공분산으로 자기 어텐션 유닛을 모델링하는 새로운 트랜스포머, Correlated Gaussian Process Transformer (CGPT)를 제안한다. CGPT는 비대칭 어텐션을 허용하여 표현 능력을 향상시키며, 효율적인 확장을 위해 CGP의 희소 근사를 도출한다. 실험 결과, CGP 기반 및 희소 CGP 기반 트랜스포머는 다양한 벤치마크 작업에서 기존 최고 성능의 GP 기반 트랜스포머보다 우수한 성능을 달성함을 보여준다. 코드는 https://github.com/MinhLong210/CGP-Transformers 에서 확인 가능하다.