Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Jet-Nemotron: Modelo de lenguaje eficiente con búsqueda de arquitectura postneural

Created by
  • Haebom

Autor

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai

Describir

Jet-Nemotron es un novedoso modelo de lenguaje de arquitectura híbrida que logra una precisión comparable o superior a la de los modelos de atención completa existentes, a la vez que mejora significativamente el rendimiento de generación. Se desarrolló utilizando una novedosa canalización de búsqueda de arquitectura de red neuronal denominada PostNAS (Búsqueda de Arquitectura PostNeural). A diferencia de los enfoques existentes, explora eficientemente los diseños de bloques de atención mediante la fijación de pesos MLP basados ​​en un modelo de atención completa preentrenado. Los componentes clave incluyen la colocación y eliminación óptima de capas de atención completa, la selección lineal de bloques de atención, un novedoso diseño de bloques de atención y la búsqueda de hiperparámetros basada en hardware. En comparación con Qwen3, Qwen2.5, Gemma3 y Llama3.2, el modelo Jet-Nemotron-2B logra una precisión comparable o superior en múltiples pruebas de referencia, a la vez que alcanza un rendimiento de generación hasta 53,6 veces más rápido y una aceleración de prellenado 6,1 veces más rápida. También logra una mayor precisión en MMLU y MMLU-Pro que los modelos avanzados de atención completa MoE recientes, como DeepSeek-V3-Small y Moonlight. Esto es posible a pesar de que el modelo más grande tiene 15 mil millones de parámetros totales y 2,2 mil millones de parámetros activados.

Takeaways, Limitations

Takeaways:
Demostramos que una arquitectura híbrida puede mejorar drásticamente el rendimiento de la generación manteniendo la precisión de un modelo de atención completa.
Presentamos un proceso de diseño de modelos eficiente llamado PostNAS.
El modelo Jet-Nemotron-2B supera a los modelos de última generación existentes en varios puntos de referencia.
Esto sugiere que se puede lograr un mayor rendimiento con menos parámetros que con modelos más grandes.
Limitations:
Se necesitan más investigaciones para explorar el rendimiento de generalización de la canalización PostNAS y su aplicabilidad a otros tipos de modelos.
Falta análisis sobre la eficiencia energética del modelo Jet-Nemotron.
Debemos considerar la posibilidad de sesgo hacia puntos de referencia específicos.
Se necesita un análisis más profundo de la relación entre el tamaño del modelo y el rendimiento.
👍