Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Jet-Nemotron : modèle de langage efficace avec recherche d'architecture post-neurale

Created by
  • Haebom

Auteur

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai

Contour

Jet-Nemotron est un nouveau modèle de langage à architecture hybride qui améliore considérablement le débit de génération tout en maintenant, voire en surpassant, la précision des modèles d'attention complète existants. Il a été développé à l'aide d'un nouveau pipeline de recherche d'architecture de réseau neuronal appelé PostNAS (Post Neural Architecture Search). Contrairement aux approches existantes, il explore efficacement les conceptions de blocs d'attention en fixant les pondérations MLP d'un modèle d'attention complète pré-entraîné. Ses principaux composants incluent le placement et la suppression optimaux de la couche d'attention complète, la sélection linéaire des blocs d'attention, la conception innovante des blocs d'attention et la recherche d'hyperparamètres sensible au matériel. Le modèle Jet-Nemotron-2B atteint une précision similaire ou supérieure à celle de Qwen3, Qwen2.5, Gemma3 et Llama3.2 sur divers benchmarks, tout en offrant un débit de génération jusqu'à 53,6 fois plus rapide et un pré-remplissage 6,1 fois plus rapide. Il atteint également une précision supérieure sur MMLU et MMLU-Pro que les récents modèles d'attention complète MoE avancés tels que DeepSeek-V3-Small et Moonlight.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’une architecture hybride peut considérablement améliorer le débit tout en maintenant la précision d’un modèle d’attention complet.
Nous présentons un pipeline de conception de modèle efficace appelé PostNAS.
Bien qu'il s'agisse d'un petit modèle (paramètres 2B), il surpasse les modèles à grande échelle.
Cela montre une grande amélioration à la fois de la vitesse de génération et de la vitesse de pré-remplissage.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du pipeline PostNAS et son applicabilité à d’autres architectures de modèles.
Manque d'analyse de l'efficacité énergétique du modèle Jet-Nemotron.
ÉTant donné que nous nous sommes concentrés sur l’amélioration des performances pour un benchmark spécifique, les performances de généralisation à d’autres tâches ou ensembles de données nécessitent une validation supplémentaire.
👍