[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Caractérisation des performances du modèle d'espace d'état (SSM) et du modèle de langage hybride SSM-Transformer avec une longueur de contexte longue

Created by
  • Haebom

Auteur

Saptarshi Mitra, Rachid Karami, Haocheng Xu, Sitao Huang, Hyoukjun Kwon

Contour

Cet article compare et analyse de manière exhaustive les performances des modèles d'espace d'état (SSM) et des modèles hybrides afin de surmonter les limites de l'architecture Transformer existante, en réponse à la demande croissante d'intelligence artificielle capable de traiter localement des entrées continues et à contexte long. Nous nous concentrons plus particulièrement sur l'évaluation des performances de l'inférence à contexte long sur GPU grand public et embarqués, et démontrons que les SSM sont plus performants que Transformer pour le traitement de séquences longues. Nous confirmons qu'ils peuvent traiter jusqu'à 220 000 jetons sur un GPU grand public de 24 Go et sont jusqu'à 4 fois plus rapides que Transformer dans les contextes longs. De plus, nous révélons que le noyau SSM, sensible au matériel, représente plus de 55 % du temps d'exécution de l'inférence, ce qui suggère qu'il constitue une cible clé pour l'accélération matérielle future. Enfin, nous prévoyons de présenter un cadre d'évaluation des performances ainsi que des résultats détaillés d'analyse des caractéristiques spécifiques aux appareils pour la co-conception de systèmes.

Takeaways, Limitations_

Takeaways:
Il a été démontré expérimentalement que les modèles basés sur SSM sont plus efficaces et supérieurs que Transformer dans le traitement de contexte de texte long.
Proposer des orientations d'optimisation du système pour le traitement du contexte à long terme dans les environnements GPU grand public/embarqués.
Nous présentons le noyau SSM comme une cible principale pour l’accélération matérielle.
Encourage la recherche plus poussée en fournissant des caractéristiques de performances détaillées pour chaque appareil et en publiant un framework open source.
Limitations:
ÉTant donné que cette étude est une évaluation d’un modèle et d’un matériel spécifiques, la généralisation à d’autres modèles ou matériels peut être limitée.
Seul l’aspect performance a été pris en compte et l’analyse de la précision du modèle s’est avérée insuffisante.
Une évaluation complète des différents types de données contextuelles de longue durée peut faire défaut.
👍