로그인

LLM Inference Acceleration via Efficient Operation Fusion

작성자
  • Haebom
카테고리
비어 있음

저자

Mahsa Salmani, Ilya Soloveychik

개요

본 논문은 Transformer 기반 대규모 언어 모델(LLM)의 추론 속도를 향상시키는 새로운 기법을 제안합니다. LLM의 추론 속도 저하의 주요 원인 중 하나는 Softmax와 LayerNorm 계산에 필요한 공간적 집합 연산(collective operations)으로, 이는 벡터의 모든 요소를 단일 위치로 집계해야 하기 때문에 통신 오버헤드가 발생합니다. 본 논문에서는 선형 연산의 특성을 활용하여 Softmax와 LayerNorm의 정규화를 선형 계층 연산 이후로 연기함으로써, 정규화에 필요한 집합 연산을 행렬 곱셈과 병렬로 수행하여 그 지연 시간을 완전히 숨기는 기법을 제시합니다. 이를 통해 수치적 정확도를 유지하면서 하드웨어 활용률을 높이고 전체 지연 시간을 크게 줄일 수 있습니다.

시사점, 한계점

시사점:
Transformer 기반 LLM의 추론 속도를 향상시키는 효율적인 기법 제시.
Softmax와 Layernorm 연산의 집합 연산 오버헤드를 효과적으로 해결.
하드웨어 활용률 증대 및 전체 지연 시간 감소.
수치적 정확도 유지.
한계점:
제안된 기법의 성능은 특정 하드웨어 환경에 의존적일 수 있음.
다양한 크기와 구조의 LLM에 대한 일반화 가능성에 대한 추가 연구 필요.
다른 유형의 정규화 기법이나 다른 아키텍처에 대한 적용 가능성에 대한 추가 연구 필요.
👍