Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Blockbuster, Part 1: Block-level AI Operator Fusion

Created by
  • Haebom

저자

Ofer Dekel

개요

Blockbuster는 추론 프로그램에서 AI 연산자 융합을 위한 프레임워크입니다. GPU, 멀티코어 CPU, 일부 AI 가속기 칩을 포함한 계층적 메모리 구조를 가진 모든 멀티프로세서 아키텍처와 호환됩니다. 데이터 블록이 메모리 계층 간 이동하는 방식을 명시적으로 모델링하는 블록 프로그램이라는 그래프 기반의 AI 작업 표현을 포함합니다. 또한 후보 선택 알고리즘과 각 후보를 융합하는 융합 알고리즘으로 구성된 연산자 융합 절차를 포함하며, 이러한 두 알고리즘 구조는 Blockbuster를 대규모 AI 프로그램에 특히 적합하게 만듭니다. 본 논문은 규칙 기반 기술인 융합 알고리즘에 초점을 맞추고 있습니다. 기존의 규칙 기반 융합 알고리즘이 많지만, Blockbuster의 알고리즘은 메모리 계층 간 데이터 이동을 직접 모델링하여 독보적인 융합 결과를 생성합니다. 본 논문에서는 알고리즘이 잘 알려진 Flash Attention 커널을 자동으로 재발견하는 것을 보여주고, LayerNorm과 행렬 곱셈, RMSNorm과 FNN-SwiGLU의 융합(3개의 행렬 곱셈, Hadamard 곱, 축소 및 몇 가지 elementwise 연산을 단일 메가 커널로 융합)을 통해 접근 방식의 성능을 입증합니다.

시사점, 한계점

시사점: 메모리 계층 간 데이터 이동을 명시적으로 모델링하는 규칙 기반 융합 알고리즘을 통해 기존 알고리즘보다 효율적인 AI 연산자 융합을 가능하게 합니다. Flash Attention 커널 재발견 및 LayerNorm, RMSNorm과 다른 연산자의 효과적인 융합을 통해 성능 향상 가능성을 보여줍니다. 대규모 AI 프로그램에 적합한 구조를 가지고 있습니다.
한계점: 현재는 규칙 기반 융합 알고리즘에 초점을 맞추고 있으며, 더욱 복잡한 AI 작업에 대한 적용성 및 일반화 성능에 대한 추가적인 연구가 필요합니다. 후보 선택 알고리즘에 대한 자세한 설명이 부족합니다. 다양한 아키텍처 및 작업에 대한 실험적 결과가 제한적입니다.
👍