Strassen Attention: Unlocking Compositional Abilities in Transformers Based on a New Lower Bound Method
작성자
Haebom
저자
Alexander Kozachinskiy, Felipe Urrutia, Hector Jimenez, Tomasz Steifer, German Pizarro, Matias Fuentes, Francisco Meza, Cristian B. Calderon, Cristobal Rojas
개요
본 논문은 무한 정밀도를 가진 단일 레이어 softmax Transformer의 이론적 한계를 평가하는 새로운 방법을 제안합니다. 세 가지 고차원 추론 작업(Match3, 함수 합성, 이항 관계 합성)에 대한 하한선을 설정하고, 단일 레이어 softmax Transformer가 이러한 작업들을 해결할 수 없음을 공식적으로 증명합니다. 이러한 한계를 극복하기 위해 Strassen attention을 제안하고, 이 메커니즘을 사용하면 단일 레이어 Transformer가 이러한 작업들을 원칙적으로 해결할 수 있음을 증명합니다. Strassen attention은 기존의 고차원 attention이나 삼각 attention보다 계산 복잡도가 낮아 확장성이 뛰어나다는 것을 보여줍니다. 실험적으로 Strassen attention을 기존의 attention 메커니즘들과 비교하여 그 성능과 한계를 분석하고, Strassen attention이 모든 작업에서 기존 attention보다 우수한 성능을 보임을 확인합니다.
시사점, 한계점
•
시사점:
◦
단일 레이어 softmax Transformer의 이론적 한계를 규명하고, 그 한계를 극복할 수 있는 새로운 attention 메커니즘(Strassen attention)을 제시했습니다.
◦
Strassen attention의 계산 효율성과 우수한 성능을 실험적으로 검증했습니다.
◦
Transformer의 추론 능력 향상을 위한 연구 방향을 제시했습니다.
•
한계점:
◦
현재 연구는 단일 레이어 Transformer에 국한되어 있으며, 다층 Transformer에 대한 분석은 추가적인 연구가 필요합니다.
◦
실험은 특정 작업과 데이터셋에 국한되어 있으며, 더욱 다양한 작업과 데이터셋에 대한 추가적인 실험이 필요합니다.
◦
Strassen attention의 일반적인 적용 가능성과 확장성에 대한 추가적인 연구가 필요합니다.