Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Plataforma de tejido fotónico para aceleradores de IA

Created by
  • Haebom

Autor

Jing Ding, Trung Diep

Describir

Este artículo presenta Photonic Fabric™ y Photonic Fabric Appliance™ (PFA), subsistemas de conmutación y memoria basados en tecnología óptica que ofrecen baja latencia, alto ancho de banda y bajo consumo energético. PFA integra memoria HBM3E de alto ancho de banda, conmutadores ópticos integrados en el módulo y DDR5 externa en un sistema encapsulado electroóptico 2.5D, que proporciona hasta 32 TB de memoria compartida y 115 Tbps de conmutación digital integral. Photonic Fabric™ permite el entrenamiento e inferencia distribuidos de IA para ejecutar estrategias paralelas de forma más eficiente. Elimina las limitaciones de la playa de silicio que limitan las relaciones memoria-cómputo fijas observadas en los diseños tradicionales de aceleradores XPU. Reemplazar la pila HBM local en una XPU con chiplets conectados a Photonic Fabric aumenta la capacidad de memoria y el ancho de banda, alcanzando niveles inalcanzables con HBM integrado únicamente. Presentamos CelestiSim, un simulador analítico ligero validado en sistemas NVIDIA H100 y H200, para evaluar el rendimiento y el ahorro de energía de LLM en PFA sin cambios significativos en el diseño del núcleo de la GPU. Los resultados de la simulación muestran que el uso de PFA logra una mejora del rendimiento de hasta 3,66x y una reducción de latencia de 1,40x en la inferencia LLM de 405B parámetros, una mejora del rendimiento de hasta 7,04x y una reducción de latencia de 1,41x en la inferencia LLM de 1T parámetros, y una reducción de energía del 60-90% en el movimiento de datos de la computación colectiva en todos los escenarios de entrenamiento LLM. Si bien estos resultados se presentan para GPU NVIDIA, pueden aplicarse de forma similar a otros diseños de aceleradores de IA (XPU) que comparten la misma limitación fundamental de una relación memoria-computación fija.

Takeaways, Limitations

Takeaways:
Se presenta una nueva arquitectura basada en óptica que supera las limitaciones de las relaciones fijas entre memoria y capacidad de cálculo.
Muestra potencial para mejorar significativamente la inferencia LLM y el rendimiento del aprendizaje y la eficiencia energética (hasta 7 veces más rendimiento, hasta un 90 % de ahorro de energía)
Aplicabilidad a varios diseños de aceleradores de IA
Evaluación eficiente del rendimiento posible con el simulador de análisis ligero CelestiSim
Limitations:
Actualmente, se requiere una implementación y verificación real basada en los resultados de la simulación.
Falta de análisis del coste y la complejidad de la PFA
Se necesita más investigación sobre la generalización a varias arquitecturas XPU.
Se necesita un análisis más profundo de la precisión y las limitaciones de CelestiSim.
👍