[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Photonic Fabric Platform for AI Accelerators

Created by
  • Haebom

저자

Jing Ding, Trung Diep

개요

본 논문은 저지연, 고대역폭, 저 에너지 소비를 제공하는 광학 기반 스위치 및 메모리 서브시스템인 Photonic Fabric™과 Photonic Fabric Appliance™ (PFA)를 제시한다. 고대역폭 HBM3E 메모리, 온모듈 광학 스위치, 외부 DDR5를 2.5D 전기광학 시스템인패키지로 통합하여 최대 32TB의 공유 메모리와 115Tbps의 전전 연결 디지털 스위칭을 제공한다. Photonic Fabric™은 분산 AI 학습 및 추론에서 병렬 처리 전략을 더 효율적으로 실행할 수 있도록 한다. 기존 XPU 가속기 설계의 고정된 메모리-연산 비율을 제한하는 실리콘 면적 제약을 해결한다. XPU의 로컬 HBM 스택을 Photonic Fabric에 연결되는 칩렛으로 대체하여 메모리 용량과 대역폭을 확장한다. NVIDIA H100 및 H200 시스템을 기반으로 검증된 경량 분석 시뮬레이터 CelestiSim을 소개하며, GPU 코어 설계 변경 없이 PFA에서 LLM 추론 성능 및 에너지 절감 효과를 평가한다. 시뮬레이션 결과, 405B 파라미터 LLM 추론에서 최대 3.66배의 처리량 향상과 1.40배의 지연 시간 단축, 1T 파라미터에서는 최대 7.04배의 처리량 향상과 1.41배의 지연 시간 단축, 모든 LLM 학습 시나리오에서 데이터 이동 에너지 소비 60-90% 절감 효과를 보였다. NVIDIA GPU를 대상으로 결과를 제시했지만, 동일한 메모리-연산 제약을 공유하는 다른 AI 가속기 설계(XPU)에도 유사하게 적용될 수 있다.

시사점, 한계점

시사점:
광학 기술을 활용하여 XPU의 메모리-연산 비율 제한을 극복하고 확장성을 크게 향상시킬 수 있음을 보여줌.
LLM 추론 및 학습에서 상당한 성능 향상(처리량 및 지연 시간)과 에너지 절감 효과를 달성할 수 있음을 실험적으로 입증.
다양한 AI 가속기 설계에 적용 가능한 범용적인 기술임.
한계점:
현재는 시뮬레이션 결과에 기반하며, 실제 하드웨어 구현 및 검증이 필요함.
NVIDIA GPU에 대한 결과만 제시되었으며, 다른 아키텍처에서의 성능은 추가적인 연구가 필요함.
CelestiSim 시뮬레이터의 정확성과 일반화 가능성에 대한 추가적인 검증이 필요함.
PFA의 비용 및 복잡성에 대한 분석이 부족함.
👍