Sign In

Revisiting Kernel Attention with Correlated Gaussian Process Representation

Created by
  • Haebom
Category
Empty

저자

Long Minh Bui, Tho Tran Huu, Duy Dinh, Tan Minh Nguyen, Trong Nghia Hoang

개요

본 논문은 시퀀셜 데이터 모델링에서 최첨단 성능을 보이는 트랜스포머의 모델 불확실성 추정 및 보정 문제를 다룬다. 기존 연구들은 트랜스포머의 어텐션 유닛에 가우시안 프로세스(GP)를 적용하여 불확실성 보정을 수행했으나, GP의 커널 특성상 대칭 어텐션으로 제한되어 모델의 표현 능력이 감소하는 한계가 있었다. 이를 해결하기 위해, 본 논문에서는 두 개의 상관된 GP(CGP) 간의 교차 공분산으로 자기 어텐션 유닛을 모델링하는 새로운 트랜스포머, Correlated Gaussian Process Transformer (CGPT)를 제안한다. CGPT는 비대칭 어텐션을 허용하여 표현 능력을 향상시키며, 효율적인 확장을 위해 CGP의 희소 근사를 도출한다. 실험 결과, CGP 기반 및 희소 CGP 기반 트랜스포머는 다양한 벤치마크 작업에서 기존 최고 성능의 GP 기반 트랜스포머보다 우수한 성능을 달성함을 보여준다. 코드는 https://github.com/MinhLong210/CGP-Transformers 에서 확인 가능하다.

시사점, 한계점

시사점:
비대칭 어텐션을 허용하는 CGP 기반 트랜스포머(CGPT)를 제안하여 기존 GP 기반 트랜스포머의 표현 능력 한계를 극복하였다.
희소 CGP 근사를 통해 CGPT의 확장성을 향상시켰다.
다양한 벤치마크 작업에서 기존 최고 성능의 GP 기반 트랜스포머보다 우수한 성능을 입증하였다.
한계점:
제안된 모델의 일반화 성능에 대한 추가적인 분석이 필요하다.
다른 유형의 불확실성 추정 및 보정 방법과의 비교 연구가 부족하다.
CGP의 희소 근사의 정확도 및 계산 비용에 대한 더 자세한 분석이 필요하다.
👍