Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HoPE : codage positionnel rotatif hyperbolique pour une modélisation stable des dépendances à longue portée dans les grands modèles de langage

Created by
  • Haebom

Auteur

Chang Dai, Hongyu Shan, Mingyang Song, Di Liang

Contour

Cet article propose le codage positionnel rotatif hyperbolique (HoPE), une nouvelle méthode de codage positionnel inspirée de la transformée de Lorenz de la géométrie hyperbolique. Cette méthode vise à pallier les limites des mécanismes de codage positionnel utilisés pour modéliser la structure des séquences et les dépendances à longue portée dans les modèles Transformer. Alors que le codage positionnel rotatif (RoPE) classique entrave la modélisation des dépendances à longue portée en raison des oscillations de l'attention, HoPE surmonte ce problème en appliquant des rotations de Lorenz aux représentations de jetons à l'aide de fonctions hyperboliques. L'analyse théorique démontre que RoPE est un cas particulier de formulation généralisée de HoPE, et HoPE résout fondamentalement le problème de RoPE en imposant une diminution monotone des poids d'attention à mesure que la distance inter-jetons augmente. Les résultats expérimentaux obtenus à l'aide de divers tests de séquence étendus démontrent que HoPE surpasse les méthodes de codage positionnel existantes.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode d'encodage de position, HoPE, qui résout le problème du modèle d'attention oscillant de RoPE, qui est Limitations.
Généralisation de RoPE basée sur les bases théoriques de la géométrie hyperbolique
Amélioration des performances dans la modélisation des dépendances à longue portée et amélioration des performances d'extrapolation pour les séquences longues.
A démontré des performances supérieures par rapport aux méthodes existantes dans divers benchmarks
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si l’efficacité de la méthode proposée peut être généralisée à tous les types de données de séquence et de modèles de transformateurs.
Les détails des résultats expérimentaux et du code n'ont pas encore été publiés (ils seront publiés ultérieurement)
👍