[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Caracterización del rendimiento del modelo de espacio de estados (SSM) y del modelo de lenguaje híbrido SSM-Transformador con una longitud de contexto larga

Created by
  • Haebom

Autor

Saptarshi Mitra, Rachid Karami, Haocheng Xu, Sitao Huang, Hyoukjun Kwon

Describir

Este artículo presenta una investigación para superar las limitaciones de la arquitectura Transformer existente debido a la creciente demanda de inteligencia artificial capaz de procesar entradas contextuales continuas y a largo plazo en dispositivos locales. Para resolver los problemas de baja eficiencia y uso práctico debido a la complejidad secundaria y los requisitos de memoria del Transformer existente, se está realizando una investigación centrada en los Modelos de Espacio de Estado (SSM) y modelos híbridos que proporcionan escalabilidad lineal. En este artículo, realizamos una evaluación comparativa exhaustiva de Transformer, SSM y modelos híbridos para la inferencia de contexto a largo plazo en GPU reales de consumo e integradas, y demostramos que SSM es más adecuado para el procesamiento de contexto a largo plazo y puede procesar hasta 220 000 tokens en GPU de consumo. En particular, confirmamos que SSM es hasta 4 veces más rápido que Transformer en contextos a largo plazo y revelamos que el kernel SSM consciente del hardware representa más del 55 % del tiempo de ejecución de la inferencia, lo que sugiere que es un objetivo clave para la aceleración de hardware futura. Además, proporcionamos resultados detallados de análisis de características específicas del dispositivo para el diseño conjunto de sistemas de borde, y planeamos publicar en código abierto el marco de evaluación comparativa para seguir avanzando en nuestra investigación.

Takeaways, Limitations

Takeaways:
Demostramos experimentalmente que los modelos basados en SSM son más eficientes y funcionan mejor que Transformer en la inferencia de contexto a largo plazo.
Optimizaciones a nivel de sistema para la inferencia de contexto largo y nuevas direcciones para el desarrollo de aplicaciones.
Presentando el kernel SSM como un objetivo principal para la aceleración de hardware.
Sugerimos el potencial para mejorar el rendimiento del procesamiento de contexto largo en dispositivos de borde.
Facilitar la investigación de seguimiento proporcionando un marco de evaluación comparativa de código abierto.
Limitations:
Dado que este estudio se basa en resultados de evaluación comparativa para GPU integradas y de consumo específicas, la generalización a otras plataformas de hardware puede ser limitada.
En lugar de una comparación exhaustiva de varias arquitecturas SSM y modelos híbridos, el estudio se realizó en un conjunto limitado de modelos.
Centrarse únicamente en el aspecto del rendimiento puede resultar en una falta de análisis de la precisión del modelo u otros aspectos importantes.
👍