[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉChelle prévisible : Partie II, Farseer : une loi d'échelle affinée dans les grands modèles de langage

Created by
  • Haebom

Auteur

Houyi Li, Wenzhen Zheng, Qiufeng Wang, Zhenyu Ding, Haoying Wang, Zili Wang, Shijie Xuyang, Ning Ding, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang

Contour

Dans cet article, nous présentons Farseer, une loi d'évolutivité permettant de pallier le coût élevé de l'apprentissage des modèles de langage à grande échelle (LLM). Farseer construit systématiquement une surface de perte de modèle L(N,D) qui atteint une précision bien supérieure sur les données expérimentales que les lois d'évolutivité existantes (par exemple, la loi de Chinchilla). Elle est vérifiée par des expériences approfondies impliquant l'apprentissage d'environ 1 000 LLM de tailles et de configurations variées, et présente une capacité d'extrapolation supérieure, réduisant l'erreur d'extrapolation de 433 % par rapport à la loi de Chinchilla. Elle permet une extrapolation fiable des résultats expérimentaux à petite échelle aux prédictions de performances à grande échelle et offre de nouvelles perspectives pour une allocation optimale des ressources de calcul. Tous les modèles, données, résultats et journaux sont partagés publiquement.

Takeaways, Limitations_

Takeaways:
Farseer présente une nouvelle loi d'évolutivité avec une précision supérieure aux lois d'évolutivité existantes
Les résultats expérimentaux à petite échelle peuvent être utilisés pour prédire les performances à grande échelle.
Fournit de nouvelles perspectives sur l'allocation optimale des ressources informatiques
Permettre la recherche grâce à un accès ouvert aux modèles, aux données, aux résultats et aux journaux
Limitations:
Une validation supplémentaire des performances de généralisation de Farseer est nécessaire
Il est nécessaire d'évaluer l'applicabilité de Farseer à différentes architectures et méthodes de formation
L’échelle des ressources de calcul utilisées dans l’expérience est très grande (3 millions d’heures GPU NVIDIA H100 consommées).
👍