Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Photonic Fabric Platform for AI Accelerators

Created by
  • Haebom

作者

Jing Ding, Trung Diep

概要

本論文は、低遅延、高帯域幅、低エネルギー消費を提供する光学ベースのスイッチ、およびメモリサブシステムであるPhotonic Fabric™とPhotonic Fabric Appliance™(PFA)を提示します。 PFAは、高帯域幅HBM3Eメモリ、オンモジュール光学スイッチ、および外部DDR5を2.5D電気光学システムのパッケージに統合し、最大32TBの共有メモリと115Tbpsの電気接続デジタルスイッチングを提供します。 Photonic Fabric™は、分散AI学習と推論が並列戦略をより効率的に実行できるようにします。既存のXPUアクセラレータ設計で観察された固定メモリ対演算比を制限するシリコンビーチライン制約を排除します。 XPUのローカルHBMスタックをPhotonic Fabricに接続されたチップレットに置き換えると、メモリ容量と帯域幅が増加し、パッケージ内のHBMだけでは達成できないレベルに拡張できる。 NVIDIA H100およびH200システムを通じて検証された軽量分析シミュレータであるCelestiSimを導入し、GPUコア設計を大きく変更することなくPFAでLLMの性能と省エネ効果を評価する。シミュレーションの結果、PFAを使用すると405BパラメータLLM推論で最大3.66倍のスループット向上と1.40倍の遅延時間短縮、1Tパラメータで最大7.04倍のスループット向上と1.41倍の遅延時間短縮、すべてのLLM学習シナリオで集団演算のデータ移動エネルギー消費を60-90これらの結果はNVIDIA GPUについて提示されていますが、固定メモリ対演算比という同じ基本的な制限を共有する他のAIアクセラレータ設計(XPU)にも同様に適用できます。

Takeaways、Limitations

Takeaways:
固定メモリ‐演算比の限界を克服する新しい光学ベースアーキテクチャの提示
LLM推論と学習性能とエネルギー効率を大幅に向上させる可能性を提示(最大7倍のスループット向上、最大90%の省エネ)
様々なAIアクセラレータ設計に適用可能
軽量分析シミュレータCelestiSimによる効率的な性能評価
Limitations:
現在、シミュレーション結果に基づいて、実際の実装と検証が必要です
PFAのコストと複雑さの分析不足
さまざまなXPUアーキテクチャの一般化の可能性に関するさらなる研究が必要
CelestiSimの精度と限界に関するさらなる分析が必要
👍