본 논문은 Transformer의 성능에 중요한 역할을 하는 self-attention과 FFN(Feed-Forward Network)에 주목합니다. 기존 연구들이 self-attention에 집중한 것과 달리, 본 논문은 FFN이 query-key-value 메커니즘을 통해 memory network처럼 동작한다는 점에 착안하여, query-key-value 프레임워크 자체가 성능에 중요한 요소라고 가정합니다. 이를 검증하기 위해, self-attention을 convolution 기반의 FFN-like token mixer인 FFNified attention으로 변환하는 기법을 제안합니다. FFNified attention은 large kernel convolution을 사용하여 query-key-value 상호작용을 대체하고 GELU 활성화 함수를 사용합니다. 이를 기반으로, 단순한 연산자들로 구성된 효율적인 FFNet (Fast-Forward Networks)을 제시하며, 다양한 분야에서 기존의 복잡한 방법들을 능가하는 성능과 효율성을 보여줍니다. 마지막으로, query-key-value 프레임워크 내부의 하위 연산을 명시하지 않는 일반적인 믹서 아키텍처인 MetaMixer를 제안합니다.