Sign In

Beyond Linearity in Attention Projections: The Case for Nonlinear Queries

Author
  • Haebom
Category
Empty

저자

Marko Karbevski

💡 개요

본 논문은 기존 트랜스포머의 선형 쿼리 투영($W_Q$)이 항등 변환으로 대체될 수 있다는 점에 착안하여, 쿼리 투영을 비선형 잔차 형태로 확장하는 새로운 방법론을 제안합니다. 제안된 비선형 쿼리 투영은 항등 변환을 기반으로 작은 MLP 네트워크($f_\theta$)를 추가하여 모델의 표현력을 강화하며, GPT-3 소형 모델 스타일 실험에서 기존 모델 대비 유의미한 성능 향상(검증 로그 손실 2.40% 감소, 퍼플렉서티 6.81% 감소)을 달성했습니다.

🔑 시사점 및 한계

트랜스포머 쿼리 투영에 비선형성을 도입함으로써 모델의 표현력을 증대시키고 성능을 향상시킬 수 있음을 보여줍니다.
항등 변환을 기반으로 하는 잔차 구조는 기존의 안정적인 선형 투영의 이점을 유지하면서 비선형성의 장점을 활용할 수 있습니다.
제안된 방법론은 더 큰 규모의 모델 및 다양한 모달리티에 대한 추가적인 연구 및 검증이 필요합니다.
👍