FlashEVA: Accelerating LLM inference via Efficient Attention
Created by
Haebom
Category
Empty
저자
Juan Gabriel Kostelec, Qinghai Guo
개요
본 논문은 트랜스포머 모델의 효율적인 추론을 위한 FlashEVA를 제시하고, 이를 위한 파인튜닝 방법을 제안한다. FlashEVA는 EVA (Efficient Attention via Control Variates)의 효율적인 구현으로, 적은 양의 토큰으로도 파인튜닝이 가능하며, 다양한 다운스트림 작업에서 효과를 유지한다. FlashEVA는 표준 트랜스포머 구현에 비해 최대 6.7배 높은 처리량과 5배 낮은 GPU 메모리 사용량을 달성한다.