Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TransXSSM: A Hybrid Transformer State Space Model with Unified Rotary Position Embedding

Created by
  • Haebom

作者

Bingheng Wu, Jingze Shi, Yifan Wu, Nan Tang, Yuyu Luo

概要

本論文では、Transformerの長期依存性捕捉能力とState Space Model(SSM)の線形時間シーケンスモデリング能力を組み合わせた新しいハイブリッドアーキテクチャであるTransXSSMを提案します。 TransformerとSSMの位置エンコード方式の違い(TransformerはRoPE、SSMはconvolutionによる暗黙的な表現)によるパフォーマンス低下の問題を解決するために、統合された回転位置埋め込み(Unified RoPE)技術を提示します。 Unified RoPEを介してTransformerとSSMレイヤーを一貫した位置エンコード方式で統合することで、従来のTransformerモデルよりも42.3%、29.5%のトレーニングと推論速度が向上し、言語モデリングベンチマークで4%以上の精度が向上しました。また、モデルサイズの拡大においても、より効率的な性能を示した。

Takeaways、Limitations

Takeaways:
TransformerとSSMの利点を効果的に組み合わせた新しいアーキテクチャを提示。
Unified RoPEによる位置エンコーディングのトラブルシューティングとパフォーマンスの向上を実現
トレーニングと推論のスピードアップ。
従来のTransformerモデルと比較して高精度を達成
効率的なモデルサイズの拡張性
Limitations:
現在提示されている実験結果は、特定の言語モデリングベンチマークに限定されています。さまざまなタスクとデータセットの追加実験が必要です。
Unified RoPEの一般性と他のアーキテクチャへのスケーラビリティに関するさらなる研究の必要性
4 sequenceKの長さでのパフォーマンスの向上が、より長いシーケンス長でも維持されることを確認する必要があります。
👍