본 논문은 Transformer 아키텍처의 핵심인 self-attention 메커니즘에서 softmax 함수의 한계점을 지적하고, sigmoid 함수를 사용한 self-attention이 더 효율적임을 이론적으로 증명합니다. softmax는 행 단위 연산으로 계산 속도가 느리고 토큰 간 경쟁을 유발하여 정보 손실을 야기할 수 있습니다. 반면 sigmoid는 토큰 간 경쟁을 줄이고 계산 부하를 감소시키는 효과를 보입니다. 본 논문은 self-attention 행렬을 전문가 혼합 모델로 표현하여 sigmoid self-attention의 전문가들이 softmax self-attention의 전문가들보다 훨씬 적은 데이터로 동일한 근사 오차를 달성함을 보임으로써 sigmoid self-attention의 표본 효율성을 이론적으로 입증합니다.
시사점, 한계점
•
시사점:
◦
sigmoid self-attention이 softmax self-attention보다 표본 효율성이 높다는 것을 이론적으로 증명.
◦
sigmoid 함수를 이용한 self-attention이 계산 속도 향상 및 정보 손실 감소에 효과적임을 시사.
◦
Transformer 모델의 성능 향상 및 효율성 개선에 기여할 가능성 제시.
•
한계점:
◦
이론적 분석에 기반한 결과이며, 실제 대규모 실험 데이터를 통한 검증이 추가적으로 필요.
◦
sigmoid self-attention의 성능이 모든 상황에서 softmax self-attention보다 우월하다는 것을 일반화하기에는 추가 연구가 필요.
◦
다양한 종류의 Transformer 모델 및 task에 대한 적용 가능성 및 성능 비교 분석이 부족.