本論文は、低遅延、高帯域幅、低エネルギー消費を提供するフォトンベースのスイッチ、およびメモリサブシステムであるPhotonic Fabric™とPhotonic Fabric Appliance™(PFA)を提示します。高帯域幅HBM3Eメモリ、オンモジュール光スイッチ、外部DDR5を2.5D電気光学システムであるパッケージに統合し、最大32TBの共有メモリと115Tbpsの全帯域デジタルスイッチングを提供します。 Photonic Fabric™は、分散AI学習と推論で並列処理戦略をより効率的に実行できるようにします。既存のXPUアクセラレータ設計の固定メモリ演算比を制限するシリコン面積の制約を解決する。 XPUのローカルHBMスタックをPhotonic Fabricに接続されたチップレットと交換して、メモリ容量と帯域幅を拡張します。 NVIDIA H100およびH200システムで実証された軽量分析シミュレータCelestiSimを使用して、GPUコア設計を変更せずにPFAでLLM推論性能と省エネ効果を評価しました。シミュレーションの結果、405BパラメータLLM推論で最大3.66倍のスループットと1.40倍の遅延時間の改善、1Tパラメータで最大7.04倍のスループットと1.41倍の遅延時間の改善、すべてのLLM学習シナリオでデータ移動エネルギー消費が60〜90%削減されました。 NVIDIA GPUの結果ですが、同じメモリ操作制約を持つ他のAIアクセラレータ設計(XPU)にも同様に適用可能です。