본 논문은 경로 적분 형식을 이용하여 Transformer 알고리즘의 일반화된 공식을 제시합니다. 어텐션 메커니즘을, 피드포워드 네트워크에 의해 지배되는 시간적 진화를 가진 미래 토큰 상태로 이어지는 모든 가능한 전이 경로를 통합하는 과정으로 재해석합니다. Transformer의 각 구성 요소를 경로 적분 공식의 대응 요소에 체계적으로 매핑하여 더욱 간결하고 효율적인 표현을 얻습니다. 이 표현에서는 시퀀스의 문맥 정보가 메모리 같은 세그먼트로 압축되고, 이 세그먼트는 Transformer 레이어에서 반복적으로 처리되어 장기간 정보 유지를 더욱 효과적으로 합니다. Passkey 검색 작업과 요약 작업을 통해 이 방법의 효과를 검증하여 제안된 방법이 기존 어텐션 메커니즘에서 관찰되는 비선형 메모리 증가와 달리, 기존 정보를 보존하면서 시퀀스 길이에 따라 선형적으로 증가하는 메모리 사용량을 보임을 보여줍니다. 양자 영감을 받은 Transformer 아키텍처의 일반화는 향후 Transformer 모델의 효율성과 표현력을 향상시키는 새로운 방법을 열 것으로 기대됩니다.