LLM Inference Acceleration via Efficient Operation Fusion

작성자

Haebom

카테고리

비어 있음

저자

Mahsa Salmani, Ilya Soloveychik

개요

본 논문은 Transformer 기반 대규모 언어 모델(LLM)의 추론 속도를 향상시키는 새로운 기법을 제안합니다. LLM의 추론 속도 저하의 주요 원인 중 하나는 Softmax와 LayerNorm 계산에 필요한 공간적 집합 연산(collective operations)으로, 이는 벡터의 모든 요소를 단일 위치로 집계해야 하기 때문에 통신 오버헤드가 발생합니다. 본 논문에서는 선형 연산의 특성을 활용하여 Softmax와 LayerNorm의 정규화를 선형 계층 연산 이후로 연기함으로써, 정규화에 필요한 집합 연산을 행렬 곱셈과 병렬로 수행하여 그 지연 시간을 완전히 숨기는 기법을 제시합니다. 이를 통해 수치적 정확도를 유지하면서 하드웨어 활용률을 높이고 전체 지연 시간을 크게 줄일 수 있습니다.