Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Dans cet article, nous présentons Farseer, une loi d'évolutivité permettant de pallier le coût élevé de l'apprentissage des modèles de langage à grande échelle (LLM). Farseer construit systématiquement une surface de perte de modèle L(N,D) qui atteint une précision bien supérieure sur les données expérimentales que les lois d'évolutivité existantes (par exemple, la loi de Chinchilla). Elle est vérifiée par des expériences approfondies impliquant l'apprentissage d'environ 1 000 LLM de tailles et de configurations variées, et présente une capacité d'extrapolation supérieure, réduisant l'erreur d'extrapolation de 433 % par rapport à la loi de Chinchilla. Elle permet une extrapolation fiable des résultats expérimentaux à petite échelle aux prédictions de performances à grande échelle et offre de nouvelles perspectives pour une allocation optimale des ressources de calcul. Tous les modèles, données, résultats et journaux sont partagés publiquement.
Takeaways, Limitations_
•
Takeaways:
◦
Farseer présente une nouvelle loi d'évolutivité avec une précision supérieure aux lois d'évolutivité existantes
◦
Les résultats expérimentaux à petite échelle peuvent être utilisés pour prédire les performances à grande échelle.
◦
Fournit de nouvelles perspectives sur l'allocation optimale des ressources informatiques
◦
Permettre la recherche grâce à un accès ouvert aux modèles, aux données, aux résultats et aux journaux
•
Limitations:
◦
Une validation supplémentaire des performances de généralisation de Farseer est nécessaire
◦
Il est nécessaire d'évaluer l'applicabilité de Farseer à différentes architectures et méthodes de formation
◦
L’échelle des ressources de calcul utilisées dans l’expérience est très grande (3 millions d’heures GPU NVIDIA H100 consommées).