Cet article compare et analyse de manière exhaustive les performances des modèles d'espace d'état (SSM) et des modèles hybrides afin de surmonter les limites de l'architecture Transformer existante, en réponse à la demande croissante d'intelligence artificielle capable de traiter localement des entrées continues et à contexte long. Nous nous concentrons plus particulièrement sur l'évaluation des performances de l'inférence à contexte long sur GPU grand public et embarqués, et démontrons que les SSM sont plus performants que Transformer pour le traitement de séquences longues. Nous confirmons qu'ils peuvent traiter jusqu'à 220 000 jetons sur un GPU grand public de 24 Go et sont jusqu'à 4 fois plus rapides que Transformer dans les contextes longs. De plus, nous révélons que le noyau SSM, sensible au matériel, représente plus de 55 % du temps d'exécution de l'inférence, ce qui suggère qu'il constitue une cible clé pour l'accélération matérielle future. Enfin, nous prévoyons de présenter un cadre d'évaluation des performances ainsi que des résultats détaillés d'analyse des caractéristiques spécifiques aux appareils pour la co-conception de systèmes.