Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HoPE: Hyperbolic Rotary Positional Encoding for Stable Long-Range Dependency Modeling in Large Language Models

Created by
  • Haebom

作者

Chang Dai, Hongyu Shan, Mingyang Song, Di Liang

概要

本論文は、トランスフォーマーモデルにおける逐次構造と長距離依存性をモデル化するために使用される位置符号化メカニズムの制限を解決するために提案されたHyperbolic Rotary Positional Encoding(HoPE)を紹介する。従来の絶対位置符号化は固定位置表現のために長いシーケンスへの外挿が困難であり、Alibiのような相対的なアプローチは非常に長いコンテキストで性能低下を示し、広く使用されているRotary Positional Encoding(RoPE)は振動するアテンションパターンによって安定した長距離依存性モデリングを妨げる。 HoPEは、双曲線幾何学のローレンツ変換に触発され、双曲関数を使用してトークン表現にローレンツ回転を適用することによってこの問題を解決します。理論的分析は、RoPEがHoPEの一般化された式の特殊なケースであることを示し、HoPEはトークン間の距離が増加するにつれてアテンション重みの単調減少を強制することによってRoPEの振動問題を根本的に解決します。いくつかの拡張シーケンスベンチマークでのパープレクティブ評価を含む広範な実験結果は、HoPEが既存の位置エンコード方法より一貫して優れていることを示しています。これらの結果は、HoPEが長距離依存性を表現し一般化する能力の向上を強調している。データとコードは公開される予定です。

Takeaways、Limitations

Takeaways:
既存の位置符号化方法(RoPE, Alibiなど)の限界を克服する新しい位置符号化技術 HoPE提示
長いシーケンスでも安定した長距離依存性モデリングが可能
RoPEの振動問題解決と性能向上
双曲幾何学に基づく理論的根拠の提示
さまざまなベンチマークで従来の方法と比較して優れた性能を実証
Limitations:
現在までに公開された情報だけでは、実際の実装と適用の詳細な説明が不足しています
他のタイプのシーケンスデータまたは操作の一般化の可能性に関するさらなる研究が必要
非常に長いシーケンスのパフォーマンス評価を追加する必要があります
計算コストとメモリ使用量の分析が必要
👍