Sign In

Taming the Tail: NoI Topology Synthesis for Mixed DL Workloads on Chiplet-Based Accelerators

Created by
  • Haebom
Category
Empty

저자

Arnav Shukla, Harsh Sharma, Srikant Bharadwaj, Vinayak Abrol, Sujay Deb

개요

본 논문은 CPU/GPU 및 HBM/DRAM과 같은 기술을 통합하는 이기종 칩렛 기반 시스템의 확장성을 개선하는 데 초점을 맞추고 있다. 온패키지 분리를 통해 Interposer Network-on-Interposer(NoI)에서 대기 시간이 발생한다는 문제점을 지적하며, 대규모 모델 추론 과정에서 파라미터와 활성화 값이 HBM/DRAM 간에 빈번하게 이동하여 인터포저에 대규모 버스트 흐름을 유발한다는 점을 강조한다. 이러한 메모리 기반 전송은 테일 레이턴시를 증가시키고 SLA를 위반한다. 이를 해결하기 위해 최악의 경우의 지연을 정량화하는 간섭 점수(IS)를 도입하고, NoI 합성을 다중 목표 최적화(MOO) 문제로 공식화했다. PARL(Partition-Aware Reinforcement Learner)을 개발하여 처리량, 지연 시간 및 전력을 균형 있게 유지하는 토폴로지를 생성한다. PARL로 생성된 토폴로지는 메모리 컷에서 경합을 줄이고, SLA를 충족하며, 최악의 경우 지연 시간을 1.2배로 줄이면서도 링크가 풍부한 메시와 경쟁력 있는 평균 처리량을 유지한다.

시사점, 한계점

시사점:
이기종 칩렛 기반 시스템의 NoI 설계에서 메모리 기반 데이터 전송으로 인한 병목 현상 문제를 제기하고, 간섭 점수(IS)를 통해 최악의 경우 지연 시간을 정량화하는 방법을 제시함.
PARL(Partition-Aware Reinforcement Learner)을 활용하여 처리량, 지연 시간, 전력 간의 균형을 맞춘 NoI 토폴로지를 생성하는 다중 목표 최적화 문제를 제안함.
PARL로 생성된 토폴로지가 기존 토폴로지에 비해 성능을 개선하고 SLA를 충족함을 입증함.
한계점:
연구가 특정 유형의 작업 부하(대규모 모델 추론)에 초점을 맞추고 있어, 다른 작업 부하에 대한 일반화 가능성은 추가 연구가 필요함.
구체적인 하드웨어 구현에 대한 세부 사항이나 비용 분석은 논문에 포함되지 않음.
PARL의 성능이 다른 최적화 기법에 비해 얼마나 뛰어난지에 대한 비교 분석이 충분히 제시되지 않았을 수 있음.
👍