본 논문은 저지연, 고대역폭, 저 에너지 소비를 제공하는 광학 기반 스위치 및 메모리 서브시스템인 Photonic Fabric™과 Photonic Fabric Appliance™(PFA)를 제시한다. PFA는 고대역폭 HBM3E 메모리, 온모듈 광학 스위치, 외부 DDR5를 2.5D 전기광학 시스템인패키지로 통합하여 최대 32TB의 공유 메모리와 115Tbps의 전전 연결 디지털 스위칭을 제공한다. Photonic Fabric™은 분산 AI 학습 및 추론이 병렬 전략을 보다 효율적으로 실행할 수 있도록 한다. 기존 XPU 가속기 설계에서 관찰되는 고정된 메모리 대 연산 비율을 제한하는 실리콘 해변선 제약을 제거한다. XPU의 로컬 HBM 스택을 Photonic Fabric에 연결되는 칩렛으로 교체하면 메모리 용량과 대역폭이 증가하여 패키지 내 HBM만으로는 달성할 수 없는 수준으로 확장할 수 있다. NVIDIA H100 및 H200 시스템을 통해 검증된 경량 분석 시뮬레이터인 CelestiSim을 도입하여 GPU 코어 설계를 크게 변경하지 않고 PFA에서 LLM의 성능과 에너지 절감 효과를 평가한다. 시뮬레이션 결과, PFA를 사용하면 405B 파라미터 LLM 추론에서 최대 3.66배의 처리량 향상과 1.40배의 지연 시간 단축, 1T 파라미터에서 최대 7.04배의 처리량 향상과 1.41배의 지연 시간 단축, 모든 LLM 학습 시나리오에서 집단 연산의 데이터 이동 에너지 소비를 60-90% 절감하는 것으로 나타났다. 이러한 결과는 NVIDIA GPU에 대해 제시되었지만, 고정된 메모리 대 연산 비율이라는 동일한 기본적인 한계를 공유하는 다른 AI 가속기 설계(XPU)에도 유사하게 적용될 수 있다.