본 논문은 긴 입력 시퀀스를 처리하는 언어 모델의 메모리 오버헤드 문제를 해결하기 위해 텐서곱 어텐션(TPA) 메커니즘을 제안합니다. TPA는 쿼리, 키, 밸류를 압축적으로 표현하기 위해 텐서 분해를 사용하여 추론 시 KV 캐시 크기를 크게 줄입니다. 문맥적 저차원 구성요소로 표현을 분해하고 Rotary Position Embedding (RoPE)과 통합하여 메모리 효율성과 모델 성능 향상을 동시에 달성합니다. TPA 기반의 새로운 시퀀스 모델링 아키텍처인 Tensor Product Attention Transformer (T6)를 제시하며, 다양한 언어 모델링 작업에서 기존의 Transformer 기반 모델들(MHA, MQA, GQA, MLA 등)과 비교하여 성능이 동등하거나 우수함을 실험적으로 보여줍니다. 특히, 디코딩 단계에서의 메모리 및 계산 효율성으로 제한된 자원 환경에서도 긴 시퀀스 처리가 가능해짐을 강조합니다. 소스 코드는 깃허브에서 공개됩니다.