Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design

Created by
  • Haebom
Category
Empty

저자

Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge

개요

AMD MI300X GPU와 Pollara 인터커넥트를 활용한 대규모 MoE 사전 훈련 연구를 최초로 수행하고, 시스템 및 모델 설계를 위한 실질적인 지침을 제공합니다. Pollara를 통해 핵심 집합 연산(all-reduce, reduce-scatter, all-gather, broadcast)에 대한 종합적인 클러스터 및 네트워킹 특성 분석을 제공하며, 커널 크기 및 메모리 대역폭에 대한 MI300X 마이크로 벤치마크를 제공합니다. 또한, MI300X에 적합한 트랜스포머 크기 조정 규칙을 도입하고, 훈련 처리량과 추론 지연 시간을 최적화하는 MoE 너비를 정당화합니다. ZAYA1 (760M active, 8.3B total parameters MoE) 모델을 소개하며, 이 모델은 Llama-3-8B 및 OLMoE를 포함한 여러 모델보다 우수한 성능을 보입니다.

시사점, 한계점

AMD 하드웨어, 네트워크 및 소프트웨어 스택이 경쟁력 있는 대규모 사전 훈련에 충분히 성숙하고 최적화되었음을 입증.
Pollara 인터커넥트를 이용한 대규모 집합 연산에 대한 포괄적인 벤치마크 제공.
MI300X에 특화된 모델 설계를 위한 지침 제시.
ZAYA1 모델은 경쟁력 있는 성능을 보임.
추후 논문에서 모델 아키텍처 및 기본 모델을 추가적으로 개선할 예정.
👍