本論文は、低遅延、高帯域幅、低エネルギー消費を提供する光学ベースのスイッチ、およびメモリサブシステムであるPhotonic Fabric™とPhotonic Fabric Appliance™(PFA)を提示します。 PFAは、高帯域幅HBM3Eメモリ、オンモジュール光学スイッチ、および外部DDR5を2.5D電気光学システムのパッケージに統合し、最大32TBの共有メモリと115Tbpsの電気接続デジタルスイッチングを提供します。 Photonic Fabric™は、分散AI学習と推論が並列戦略をより効率的に実行できるようにします。既存のXPUアクセラレータ設計で観察された固定メモリ対演算比を制限するシリコンビーチライン制約を排除します。 XPUのローカルHBMスタックをPhotonic Fabricに接続されたチップレットに置き換えると、メモリ容量と帯域幅が増加し、パッケージ内のHBMだけでは達成できないレベルに拡張できる。 NVIDIA H100およびH200システムを通じて検証された軽量分析シミュレータであるCelestiSimを導入し、GPUコア設計を大きく変更することなくPFAでLLMの性能と省エネ効果を評価する。シミュレーションの結果、PFAを使用すると405BパラメータLLM推論で最大3.66倍のスループット向上と1.40倍の遅延時間短縮、1Tパラメータで最大7.04倍のスループット向上と1.41倍の遅延時間短縮、すべてのLLM学習シナリオで集団演算のデータ移動エネルギー消費を60-90これらの結果はNVIDIA GPUについて提示されていますが、固定メモリ対演算比という同じ基本的な制限を共有する他のAIアクセラレータ設計(XPU)にも同様に適用できます。