[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Photonic Fabric Platform for AI Accelerators

Created by
  • Haebom

作者

Jing Ding, Trung Diep

概要

本論文は、低遅延、高帯域幅、低エネルギー消費を提供する光学ベースのスイッチ、およびメモリサブシステムであるPhotonic Fabric™とPhotonic Fabric Appliance™(PFA)を提示します。高帯域幅HBM3Eメモリ、オンモジュール光学スイッチ、外部DDR5を2.5D電気光学システムのパッケージに統合し、最大32TBの共有メモリと115Tbpsの電電接続デジタルスイッチングを提供します。 Photonic Fabric™は、分散AI学習と推論で並列処理戦略をより効率的に実行できるようにします。既存のXPUアクセラレータ設計の固定メモリ演算比を制限するシリコン面積の制約を解決する。 XPUのローカルHBMスタックをPhotonic Fabricに接続されたチップレットに置き換えて、メモリ容量と帯域幅を拡張します。 NVIDIA H100およびH200システムに基づいて検証された軽量分析シミュレータCelestiSimを紹介し、GPUコア設計を変更せずにPFAでLLM推論性能と省エネ効果を評価します。シミュレーションの結果、405BパラメータLLM推論で最大3.66倍のスループット向上と1.40倍の遅延時間短縮、1Tパラメータでは最大7.04倍のスループット向上と1.41倍の遅延時間短縮、すべてのLLM学習シナリオでデータ移動エネルギー消費60-90%削減効果を示した。 NVIDIA GPUを対象に結果を提示したが、同じメモリ演算制約を共有する他のAIアクセラレータ設計(XPU)にも同様に適用することができる。

Takeaways、Limitations

Takeaways:
光学技術を活用することで、XPUのメモリ演算比の制限を克服し、スケーラビリティを大幅に向上させることができます。
LLMの推論と学習は、大幅なパフォーマンス向上(処理量と遅延時間)と省エネ効果を達成できることを実験的に実証しています。
さまざまなAIアクセラレータの設計に適用可能な汎用技術です。
Limitations:
現在はシミュレーション結果に基づいており、実際のハードウェアの実装と検証が必要です。
NVIDIA GPUの結果のみが提示されており、他のアーキテクチャでのパフォーマンスには追加の研究が必要です。
CelestiSimシミュレータの精度と一般化の可能性をさらに検証する必要があります。
PFAのコストと複雑さの分析が不足しています。
👍