Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HoPE : codage positionnel rotatif hyperbolique pour une modélisation stable des dépendances à longue portée dans les grands modèles de langage

Created by
  • Haebom

Auteur

Chang Dai, Hongyu Shan, Mingyang Song, Di Liang

Contour

Cet article présente le codage positionnel rotatif hyperbolique (HoPE), une approche proposée pour pallier les limites des mécanismes de codage positionnel utilisés pour modéliser la structure séquentielle et les dépendances à longue portée dans les modèles Transformer. Les codages positionnels absolus existants peinent à extrapoler aux séquences longues en raison de leurs représentations positionnelles fixes. Les approches relatives, comme Alibi, présentent de faibles performances dans les contextes très longs. Le codage positionnel rotatif (RoPE), largement utilisé, peine à modéliser de manière fiable les dépendances à longue portée en raison de ses schémas d'attention oscillants. HoPE, inspiré de la transformée de Lorenz en géométrie hyperbolique, aborde ces problèmes en appliquant les rotations de Lorenz aux représentations de jetons à l'aide de fonctions hyperboliques. L'analyse théorique démontre que RoPE est un cas particulier de formulation généralisée de HoPE, résolvant fondamentalement le problème d'oscillation de RoPE en imposant une diminution monotone des poids d'attention à mesure que la distance inter-jetons augmente. Des résultats expérimentaux approfondis, notamment des évaluations de perplexité sur plusieurs tests de séquences étendues, démontrent que HoPE surpasse systématiquement les méthodes de codage positionnel existantes. Ces résultats soulignent la capacité accrue de HoPE à représenter et à généraliser les dépendances à longue portée. Les données et le code seront rendus publics.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle technique d'encodage de position, HoPE, qui surmonte les limites des méthodes d'encodage de position existantes (RoPE, Alibi, etc.).
Modélisation fiable des dépendances à longue portée, même dans les séquences longues
Résoudre les problèmes de vibrations du RoPE et améliorer les performances
Présentation des bases théoriques basées sur la géométrie hyperbolique
A démontré des performances supérieures par rapport aux méthodes existantes dans divers benchmarks
Limitations:
Les informations publiées à ce jour sont insuffisantes pour fournir des informations détaillées sur la mise en œuvre et l’application réelles.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à d’autres types de données de séquence ou de tâches.
Une évaluation supplémentaire des performances pour les séquences extrêmement longues est nécessaire.
Il est nécessaire d'analyser les coûts de calcul et l'utilisation de la mémoire
👍