Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Jet-Nemotron : modèle de langage efficace avec recherche d'architecture post-neurale

Created by
  • Haebom

Auteur

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai

Contour

Jet-Nemotron est un nouveau modèle de langage d'architecture hybride qui atteint une précision comparable, voire supérieure, aux modèles d'attention totale existants, tout en améliorant considérablement le débit de génération. Il a été développé à l'aide d'un nouveau pipeline de recherche d'architecture de réseau neuronal appelé PostNAS (Post Neural Architecture Search). Contrairement aux approches existantes, il explore efficacement les conceptions de blocs d'attention en fixant les pondérations MLP basées sur un modèle d'attention totale pré-entraîné. Ses principaux composants incluent le placement et la suppression optimaux de la couche d'attention totale, la sélection linéaire des blocs d'attention, la conception innovante des blocs d'attention et la recherche d'hyperparamètres sensible au matériel. Comparé à Qwen3, Qwen2.5, Gemma3 et Llama3.2, le modèle Jet-Nemotron-2B atteint une précision comparable, voire supérieure, sur plusieurs benchmarks, tout en affichant un débit de génération jusqu'à 53,6 fois plus rapide et une accélération du pré-remplissage jusqu'à 6,1 fois plus rapide. Il atteint également une précision supérieure sur MMLU et MMLU-Pro que les récents modèles d'attention totale MoE avancés tels que DeepSeek-V3-Small et Moonlight. Cela est possible malgré le fait que le modèle le plus grand possède 15 milliards de paramètres au total et 2,2 milliards de paramètres activés.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’une architecture hybride peut considérablement améliorer le débit de génération tout en maintenant la précision d’un modèle d’attention complet.
Nous présentons un pipeline de conception de modèle efficace appelé PostNAS.
Le modèle Jet-Nemotron-2B surpasse les modèles de pointe existants dans plusieurs benchmarks.
Cela suggère que des performances plus élevées peuvent être obtenues avec moins de paramètres qu'avec des modèles plus grands.
Limitations:
Des recherches supplémentaires sont nécessaires pour explorer les performances de généralisation du pipeline PostNAS et son applicabilité à d’autres types de modèles.
Il manque une analyse sur l’efficacité énergétique du modèle Jet-Nemotron.
Nous devons prendre en compte la possibilité d’un biais en faveur de critères de référence spécifiques.
Une analyse plus approfondie de la relation entre la taille du modèle et les performances est nécessaire.
👍