Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

FastMamba: Un acelerador Mamba de alta velocidad y eficiencia en FPGA con cuantificación precisa

Created by
  • Haebom

Autor

Aotao Wang, Haikuo Shao, Shaobo Ma, Zhongfeng Wang

Describir

En este artículo, proponemos FastMamba, un acelerador dedicado basado en FPGA para mejorar la eficiencia de implementación de modelos de espacio de estados (SSM), como Mamba2, en dispositivos de borde con recursos limitados. FastMamba utiliza técnicas como la cuantificación de 8 bits de capas lineales mediante la transformada de Hadamard, un marco de cuantificación de potencia de dos compatible con hardware para bloques SSM y capas convolucionales, y una aproximación lineal de primer orden para la optimización de funciones no lineales. Integra unidades de procesamiento vectorial paralelo, flujos de datos de ejecución segmentados y unidades eficientes de aproximación no lineal SSM para mejorar la eficiencia computacional y reducir la complejidad del hardware. Los resultados de nuestra evaluación en el FPGA Xilinx VC709 demuestran una aceleración de 68,80x en comparación con la CPU Intel Xeon 4210R y una aceleración de 8,90x en comparación con la GPU NVIDIA RTX 3090 en tareas de preprocesamiento de entrada Mamba2-130M, y una eficiencia energética 6x en comparación con la GPU RTX 3090 en experimentos de decodificación de salida Mamba2-2.7B.

Takeaways, Limitations

Takeaways:
Sugiere la posibilidad de una implementación eficiente de modelos SSM a gran escala como Mamba2 en dispositivos de borde.
Presentamos una técnica de cuantificación eficiente mediante la transformada de Hadamard y la cuantificación de potencia de dos.
Consiga mejoras abrumadoras en el rendimiento y la eficiencia energética con respecto a las CPU y GPU con aceleradores de hardware basados ​​en FPGA.
Limitations:
FastMamba está optimizado para un FPGA específico (Xilinx VC709) y puede tener portabilidad limitada a otras plataformas.
Las técnicas de cuantificación y aproximación presentadas son específicas del modelo Mamba2 y pueden no ser aplicables a otros modelos SSM.
Los resultados experimentales presentados en el artículo se limitan a tareas específicas (preprocesamiento de entrada, decodificación de salida), y el rendimiento y la eficiencia energética para otras tareas requieren una evaluación más profunda.
👍