Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FT-Transformer: Resilient and Reliable Transformer with End-to-End Fault Tolerant Attention

Created by
  • Haebom

作者

Huangliang Dai, Shixun Wu, Jiajun Huang, Zizhe Jian, Yue Zhu, Haiyang Hu, Zizhong Chen

概要

本論文では、Transformerモデルの推論過程で発生するソフトエラーに対する効率的なフォールトトレランス技術を提案します。従来の演算ユニットベースのフォールトトレランスフレームワークは、計算とメモリのオーバーヘッドが大きく、スケーラビリティが制限されているという制限があります。この論文では、アテンションモジュール内の操作を単一のカーネルとして扱い、エンドツーエンドのフォールトトレランスを実装することによってこの問題を解決します。非線形演算に対する包括的なエラー保護を提供し、線形モジュールはストライドアルゴリズムベースのフォールトトレランス(ABFT)を設計してスレッド間通信を回避します。実験の結果、従来の方法と比較して最大7.56倍の速度向上が達成され、平均フォールトトレランスオーバーヘッドは13.9%です。

Takeaways、Limitations

Takeaways:
Transformerモデルの推論過程で発生するソフトエラーに対する効率的な解決策の提示
従来の方法と比較してはるかに改善された速度と効率を提供するエンドツーエンドのフォールトトレラント技術を提示します。
ストライドアルゴリズムベースのフォールトトレランス(ABFT)による線形モジュールの効率的な誤り保護可能性の提示
Limitations:
提案された方法の効果は、特定のハードウェア環境または特定のサイズのTransformerモデルに限定される可能性があります。
さまざまな種類のソフトエラーの包括的な実験が不足する可能性があります。
異なるタイプのモデルまたは推論プロセスへの適用性に関する追加の研究の必要性
👍