본 논문은 대규모 언어 모델(LLM)의 추론 속도를 향상시키기 위해 칩렛 기반 PIM(Processing-in-Memory) 메모리 모듈인 Sangam을 제안한다. Sangam은 로직과 메모리를 서로 다른 공정 기술로 제작된 칩렛으로 분리하고, 인터포저를 통해 연결하여 기존 PIM 솔루션의 한계를 극복한다. CXL(Compute Express Link)을 통해 GPU에 연결되어 GPU를 대체하거나 함께 사용할 수 있으며, LLaMA 2-7B, Mistral-7B, LLaMA 3-70B 모델에서 H100 GPU 대비 향상된 성능과 에너지 효율성을 달성한다.
시사점, 한계점
•
시사점:
◦
칩렛 기반 PIM 아키텍처를 통해 DRAM 칩 내에 PE(Processing Element)를 통합하는 데 따른 제약 극복.