T-REX: A 68-567 {\mu}s/token, 0.41-3.95 {\mu}J/token Transformer Accelerator with Reduced External Memory Access and Enhanced Hardware Utilization in 16nm FinFET
Created by
Haebom
Category
Empty
저자
Seunghyun Moon, Mao Li, Gregory Chen, Phil Knag, Ram Krishnamurthy, Mingoo Seok
개요
본 논문은 Transformer 모델 추론 시 외부 메모리 접근을 줄이기 위한 새로운 훈련 및 훈련 후 압축 기법을 제시합니다. 동적 배치(dynamic batching)라 불리는 새로운 제어 흐름 메커니즘과 양방향 접근 레지스터 파일(two-direction accessible register file)이라 명명된 새로운 버퍼 아키텍처를 통해 외부 메모리 접근을 추가적으로 줄이고 하드웨어 활용도를 향상시킵니다.
시사점, 한계점
•
시사점:
◦
Transformer 모델의 외부 메모리 접근 감소를 통한 추론 속도 향상 가능성 제시
◦
동적 배치 및 새로운 버퍼 아키텍처를 통한 하드웨어 효율 증대 가능성 제시
◦
새로운 훈련 및 압축 기법의 효과 검증
•
한계점:
◦
제안된 기법의 실제 하드웨어 상 구현 및 성능 평가 결과 부재
◦
제안된 기법의 일반화 가능성 및 다양한 Transformer 모델에 대한 적용 가능성에 대한 추가적인 연구 필요