Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models

Created by
  • Haebom

作者

Chang Dai, Hongyu Shan, Mingyang Song, Di Liang

概要

本論文では、トランスフォーマーモデルでシーケンス構造と長距離依存性をモデル化するために使用される位置エンコーディングメカニズムの制限を解決するために、双曲幾何学のローレンツ変換に触発された新しい位置エンコーディング方法であるHyperbolic Rotary Positional Encoding(HoPE)を提案します。従来のRotary Positional Encoding(RoPE)は、振動するアテンションパターンで長距離依存モデリングを妨げているのに対し、HoPEは双曲関数を利用してトークン表現にローレンツ回転を適用することでこの問題を解決しています.理論的分析は、RoPEがHoPEの一般化された式の特殊なケースであることを示しています。さまざまな拡張シーケンスベンチマークを使用した実験の結果、HoPEは従来の位置エンコード方法よりも優れたパフォーマンスを示しています。

Takeaways、Limitations

Takeaways:
RoPEのLimitationsである振動するアテンションパターンの問題を解決する新しい位置符号化方法
双曲幾何学ベースの理論的根拠に基づいてRoPEを一般化
長距離依存性モデリング性能の向上と長いシーケンスの外挿性能の改善
さまざまなベンチマークで従来の方法と比較して優れた性能検証
Limitations:
提示された方法の効果があらゆる種類のシーケンスデータとトランスフォーマモデルで一般化できることをさらに研究する必要性
実験結果の詳細とコード公開はまだ行われていない(今後公開予定)
👍