Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Sur l'expressivité et la généralisation de la longueur des modèles sélectifs d'espace d'état sur les langages réguliers

Created by
  • Haebom

Auteur

Aleksandar Terzi c, Michael Hersche, Giacomo Camposampiero, Thomas Hofmann, Abu Sebastian, Abbas Rahimi

Contour

Cet article fournit un aperçu du fonctionnement des modèles sélectifs d'espace d'état (SSM) en analysant leur pouvoir expressif et leurs performances de généralisation de longueur sur des tâches de langage de règles (émulation d'automates à états finis (FSA). Pour surmonter les limitations des architectures existantes basées sur les SSM, nous présentons des modèles sélectifs d'espace d'état dense (SD-SSM), le premier SSM sélectif qui présente une généralisation de longueur parfaite sur une variété de tâches de langage de règles en utilisant une seule couche. Les SD-SSM utilisent un dictionnaire de matrices de transition dense, un mécanisme de sélection softmax qui génère une combinaison convexe des matrices a priori à chaque pas de temps, et une lecture composée d'une régularisation hiérarchique et d'un mappage linéaire. Nous évaluons également des variantes de SSM sélectifs diagonaux en considérant leurs performances empiriques sur des automates commutatifs et non commutatifs, et expliquons les résultats expérimentaux par des considérations théoriques.

Takeaways, Limitations_

Takeaways:
Meilleure compréhension du pouvoir expressif et de la généralisation de la longueur du SSM sélectif.
Nous présentons une nouvelle architecture SSM (SD-SSM) qui permet une généralisation de longueur parfaite dans une seule couche.
ÉValuation des performances et analyse des variantes SSM sélectives en diagonale dans les automates commutatifs et non commutatifs.
Présentation des bases théoriques des résultats expérimentaux.
Publication du code source ouvert.
Limitations:
Analyse limitée à l'émulation FSA. Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à des tâches plus complexes.
Les performances du SD-SSM ne sont pas comparables à celles d'autres types de modèles séquentiels. Une analyse comparative avec d'autres modèles est nécessaire.
La généralisation de longueurs parfaites dans une seule couche peut être limitée à certains types de tâches de langage de règles. Sa généralisabilité à d'autres types de tâches doit être vérifiée.
👍