Blockbuster는 추론 프로그램에서 AI 연산자 융합을 위한 프레임워크입니다. GPU, 멀티코어 CPU, 일부 AI 가속기 칩을 포함한 계층적 메모리 구조를 가진 모든 멀티프로세서 아키텍처와 호환됩니다. 데이터 블록이 메모리 계층 간 이동하는 방식을 명시적으로 모델링하는 블록 프로그램이라는 그래프 기반의 AI 작업 표현을 포함합니다. 또한 후보 선택 알고리즘과 각 후보를 융합하는 융합 알고리즘으로 구성된 연산자 융합 절차를 포함하며, 이러한 두 알고리즘 구조는 Blockbuster를 대규모 AI 프로그램에 특히 적합하게 만듭니다. 본 논문은 규칙 기반 기술인 융합 알고리즘에 초점을 맞추고 있습니다. 기존의 규칙 기반 융합 알고리즘이 많지만, Blockbuster의 알고리즘은 메모리 계층 간 데이터 이동을 직접 모델링하여 독보적인 융합 결과를 생성합니다. 본 논문에서는 알고리즘이 잘 알려진 Flash Attention 커널을 자동으로 재발견하는 것을 보여주고, LayerNorm과 행렬 곱셈, RMSNorm과 FNN-SwiGLU의 융합(3개의 행렬 곱셈, Hadamard 곱, 축소 및 몇 가지 elementwise 연산을 단일 메가 커널로 융합)을 통해 접근 방식의 성능을 입증합니다.