Este artículo presenta una investigación para superar las limitaciones de la arquitectura Transformer existente debido a la creciente demanda de inteligencia artificial capaz de procesar entradas contextuales continuas y a largo plazo en dispositivos locales. Para resolver los problemas de baja eficiencia y uso práctico debido a la complejidad secundaria y los requisitos de memoria del Transformer existente, se está realizando una investigación centrada en los Modelos de Espacio de Estado (SSM) y modelos híbridos que proporcionan escalabilidad lineal. En este artículo, realizamos una evaluación comparativa exhaustiva de Transformer, SSM y modelos híbridos para la inferencia de contexto a largo plazo en GPU reales de consumo e integradas, y demostramos que SSM es más adecuado para el procesamiento de contexto a largo plazo y puede procesar hasta 220 000 tokens en GPU de consumo. En particular, confirmamos que SSM es hasta 4 veces más rápido que Transformer en contextos a largo plazo y revelamos que el kernel SSM consciente del hardware representa más del 55 % del tiempo de ejecución de la inferencia, lo que sugiere que es un objetivo clave para la aceleración de hardware futura. Además, proporcionamos resultados detallados de análisis de características específicas del dispositivo para el diseño conjunto de sistemas de borde, y planeamos publicar en código abierto el marco de evaluación comparativa para seguir avanzando en nuestra investigación.