# LLM Inference Acceleration via Efficient Operation Fusion

### 저자

Mahsa Salmani, Ilya Soloveychik

### 개요

본 논문은 Transformer 기반 대규모 언어 모델(LLM)의 추론 속도를 향상시키는 새로운 기법을 제안합니다.  LLM의 추론 속도 저하의 주요 원인 중 하나는 Softmax와 LayerNorm 계산에 필요한 공간적 집합 연산(collective operations)으로, 이는 벡터의 모든 요소를 단일 위치로 집계해야 하기 때문에 통신 오버헤드가 발생합니다.  본 논문에서는 선형 연산의 특성을 활용하여 Softmax와 LayerNorm의 정규화를 선형 계층 연산 이후로 연기함으로써, 정규화에 필요한 집합 연산을 행렬 곱셈과 병렬로 수행하여 그 지연 시간을 완전히 숨기는 기법을 제시합니다.  이를 통해 수치적 정확도를 유지하면서 하드웨어 활용률을 높이고 전체 지연 시간을 크게 줄일 수 있습니다.

### 시사점, 한계점

- **시사점:**

    - Transformer 기반 LLM의 추론 속도를 향상시키는 효율적인 기법 제시.

    - Softmax와 Layernorm 연산의 집합 연산 오버헤드를 효과적으로 해결.

    - 하드웨어 활용률 증대 및 전체 지연 시간 감소.

    - 수치적 정확도 유지.

- **한계점:**

    - 제안된 기법의 성능은 특정 하드웨어 환경에 의존적일 수 있음.

    - 다양한 크기와 구조의 LLM에 대한 일반화 가능성에 대한 추가 연구 필요.

    - 다른 유형의 정규화 기법이나 다른 아키텍처에 대한 적용 가능성에 대한 추가 연구 필요.

[PDF 보기](https://arxiv.org/pdf/2502.17728)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
