Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les transformateurs à une couche sont prouvés comme optimaux pour le raisonnement en contexte et l'apprentissage par association distributionnelle dans les tâches de prédiction du prochain jeton

Created by
  • Haebom

Auteur

Quan Nguyen, Thanh Nguyen-Tang

Contour

Cet article étudie le comportement d'approximation et de convergence des transformateurs monocouches pour la prédiction du prochain jeton dans des environnements bruités et sans bruit. Les résultats théoriques précédents se sont concentrés sur la compréhension du comportement d'inférence dans des situations où le premier pas de gradient ou le nombre d'échantillons est infini. De plus, leur vitesse de convergence et leur capacité de généralisation restent inconnues. Cette étude comble cette lacune en démontrant l'existence d'une classe de transformateurs monocouches prouvablement optimaux selon Bayes, utilisant l'attention linéaire et ReLU. Après apprentissage par descente de gradient, cette étude démontre, par une analyse sur échantillons finis, que la perte attendue de ces transformateurs converge linéairement vers le risque bayésien. De plus, nous démontrons que les modèles entraînés se généralisent bien à des échantillons non observés et présentent des comportements d'apprentissage observés empiriquement dans des études précédentes. Ces résultats théoriques sont étayés par une validation expérimentale approfondie.

Takeaways, Limitations

Takeaways:
L'optimalité bayésienne des transformateurs monocouches est prouvée sous l'attention linéaire et ReLU.
L’analyse d’échantillons finis démontre que la perte attendue d’un transformateur monocouche converge linéairement vers le risque bayésien.
Explication théorique de la capacité de généralisation des modèles entraînés et du comportement d'apprentissage observé empiriquement.
Limitations:
L'analyse se limite aux transformateurs monocouches. La généralisation aux transformateurs multicouches nécessite des recherches plus approfondies.
ÉTant donné que cette analyse concerne une classe spécifique de transformateurs monocouches, il n’est pas certain qu’elle soit applicable à tous les transformateurs monocouches.
Les résultats de la vérification expérimentale soutiennent les résultats théoriques, mais ne garantissent pas les performances dans les applications pratiques.
👍