Leveraging Compute-in-Memory for Efficient Generative Model Inference in TPUs
Created by
Haebom
Category
Empty
저자
Zhantong Zhu, Hongou Li, Wenjie Ren, Meng Wu, Le Ye, Ru Huang, Tianyu Jia
개요
본 논문은 생성 모델의 효율적인 배포를 위해 CIM(Compute-in-Memory) 기반 TPU 아키텍처를 제안합니다. 기존 TPU의 높은 전력 소모 문제를 해결하기 위해, 매트릭스 곱셈 유닛(MXU)의 기존 디지털 시스토릭 어레이를 디지털 CIM으로 대체하는 아키텍처를 설계하고 시뮬레이션을 통해 평가합니다. 다양한 생성 모델 추론에 대한 CIM 기반 TPU 아키텍처 모델 및 시뮬레이터를 구축하고, 여러 가지 CIM 기반 TPU 아키텍처 설계 선택지를 탐색하여 성능 향상 및 에너지 소모 감소 효과를 확인합니다. 실험 결과, 기준 TPUv4i 아키텍처에 비해 대규모 언어 모델 및 확산 변환기 추론에서 최대 44.2% 및 33.8%의 성능 향상과 MXU 에너지 소모량 27.3배 감소를 달성할 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
CIM 기반 TPU 아키텍처를 통해 생성 모델 추론의 성능과 에너지 효율을 크게 향상시킬 수 있음을 보여줍니다.
◦
다양한 생성 모델에 대한 효율적인 하드웨어 가속화 방안을 제시합니다.
◦
향상된 에너지 효율은 지속 가능한 AI 시스템 구축에 기여할 수 있습니다.
•
한계점:
◦
제안된 아키텍처는 시뮬레이션 결과에 기반하며, 실제 하드웨어 구현 및 검증이 필요합니다.
◦
다양한 생성 모델 중 일부 모델에 대한 평가만 수행되었으므로, 더욱 광범위한 모델에 대한 성능 평가가 필요합니다.