Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

Created by
  • Haebom

作者

Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, Lauren Hannah, Arnav Kundu, Minsik Cho

概要

大規模言語モデル(LLM)の生成品質は、推論時間シーケンスレベルのスケーリング方法(例えば、チェーンオブザフト)を使用して改善されることがよくあります。本稿では、トークンレベルで予測品質を向上させる補完的なフレームワークであるハイパーパラレルスケーリングを紹介します。ハイパーパラレルスケーリングは、モデル内の単一トークンに対する複数の出力提案を計算して集計します。この研究では、これをRoster of Experts(RoE)というMixture-of-Experts(MoE)モデルに実装しました。 RoEは、単一のMoEを動的MoEアンサンブルに変換する学習を必要としない推論アルゴリズムです。 RoEは、エキスパートルーティングメカニズムに制御された確率的要素を注入し、各トークンに対してさまざまなエキスパートをサンプリングし、より正確な最終予測のためにその出力を集約することができます。計算コストを克服するために、効率的な展開戦略とコンピュータとメモリのオーバーヘッドを最小限に抑える特別なKVキャッシュメカニズムを導入しました。たとえば、RoE を使用すると、7B MoE モデルが推論時に 30% 少ない計算量で 10.5B MoE モデルのパフォーマンスに匹敵します。これらの利点は、モデルパラメータを微調整することなく得ることができます。

Takeaways、Limitations

Takeaways:
推論時にトークンレベルで予測品質を向上させる新しいフレームワークであるハイパーパラレルスケーリングの提示
Mixture-of-Experts (MoE)モデルのためのトレーニングフリーの推論アルゴリズムであるRoster of Experts (RoE)の開発
効率的な配置戦略とKVキャッシングメカニズムによる計算とメモリオーバーヘッドの削減
モデルの微調整なしに、より小さなモデルでより大きなモデルのパフォーマンスを達成可能
Limitations:
具体的な実験結果や性能比較の詳細は論文には記載されていない
RoEの一般的なモデルの適用性については言及しない
他のスケーリング技術との互換性と相乗効果の議論は存在しない
👍