Sign In

T-REX: A 68-567 {\mu}s/token, 0.41-3.95 {\mu}J/token Transformer Accelerator with Reduced External Memory Access and Enhanced Hardware Utilization in 16nm FinFET

Created by
  • Haebom
Category
Empty

저자

Seunghyun Moon, Mao Li, Gregory Chen, Phil Knag, Ram Krishnamurthy, Mingoo Seok

개요

본 논문은 Transformer 모델 추론 시 외부 메모리 접근을 줄이기 위한 새로운 훈련 및 훈련 후 압축 기법을 제시합니다. 동적 배치(dynamic batching)라 불리는 새로운 제어 흐름 메커니즘과 양방향 접근 레지스터 파일(two-direction accessible register file)이라 명명된 새로운 버퍼 아키텍처를 통해 외부 메모리 접근을 추가적으로 줄이고 하드웨어 활용도를 향상시킵니다.

시사점, 한계점

시사점:
Transformer 모델의 외부 메모리 접근 감소를 통한 추론 속도 향상 가능성 제시
동적 배치 및 새로운 버퍼 아키텍처를 통한 하드웨어 효율 증대 가능성 제시
새로운 훈련 및 압축 기법의 효과 검증
한계점:
제안된 기법의 실제 하드웨어 상 구현 및 성능 평가 결과 부재
제안된 기법의 일반화 가능성 및 다양한 Transformer 모델에 대한 적용 가능성에 대한 추가적인 연구 필요
구체적인 성능 향상 수치 및 비교 대상 모델과의 성능 비교 부족
👍