Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mise à l'échelle du temps d'entrée

Created by
  • Haebom

Auteur

Raphéal Huang (Yuming), Weilong Guo

Contour

Cet article présente la mise à l'échelle du temps d'entrée (ITS), un nouveau paradigme de mise à l'échelle qui complète les approches existantes de mise à l'échelle des données et de l'apprentissage, ainsi que de mise à l'échelle du temps d'inférence pour les modèles de langage à grande échelle (LLM). Nous proposons une méthode combinant les métaconnaissances des LLM pendant l'apprentissage et les tests afin d'améliorer les entrées grâce à diverses stratégies. Nous découvrons également un phénomène connu sous le nom de co-conception apprentissage-test. L'application de stratégies de requête à la fois à l'apprentissage et aux tests améliore considérablement les performances, tandis que leur application unilatérale les dégrade considérablement. Il est intéressant de noter que les ensembles de données de faible qualité peuvent atteindre des performances élevées, tandis que l'utilisation d'exemples aléatoires ou l'ajout d'informations non pertinentes donnent parfois les meilleurs résultats. Cela réfute le biais inductif courant du « garbage in, garbage out ». En effet, les ensembles de données composés de données de haute qualité peuvent limiter les performances. Les modèles entraînés avec davantage de données de qualité similaire (15 000 contre 1 000) affichent parfois des performances inférieures, ce qui suggère la prudence lors de la simple mise à l'échelle des ensembles de données. Les résultats de cette étude sont cohérents avec le phénomène « Moins, c'est plus », démontrant que des capacités d'inférence de grande dimension peuvent être induites avec un petit nombre d'exemples. Lors d'expériences avec des modèles basés sur Qwen2.5-32B-Instruct, nous avons obtenu des performances de pointe dans AIME24 (76,7 %) et AIME25 (76,7 %) pass@1, et avons obtenu AIME24 (76,7 %) et AIME25 (80 %) grâce à un vote majoritaire à trois modèles. En nous basant sur DeepSeek-R1-Distill-Qwen-32B, nous avons obtenu AIME24 (86,7 %) et AIME25 (76,7 %). Nous prévoyons de rendre open source l'ensemble de données, le pipeline de données, les résultats d'évaluation et les points de contrôle pour la reproductibilité et la poursuite des recherches.

Takeaways, Limitations_

Takeaways:
Un nouveau paradigme de mise à l'échelle LLM appelé Input Time Scaling (ITS) est proposé.
Souligner l’importance de la co-conception des tests de formation
Confirmer la faisabilité d'atteindre des performances élevées même avec des ensembles de données de faible qualité et réfuter l'idée reçue selon laquelle « garbage in, garbage out »
Confirmer la possibilité d'induire des capacités d'inférence de grande dimension même avec de petites quantités de données (confirmant le phénomène « Moins c'est plus »)
A obtenu des performances SOTA dans AIME24 et AIME25
Limitations:
L'open source de l'ensemble de données, du pipeline de données, des résultats d'évaluation et des points de contrôle est toujours en cours.
Des recherches supplémentaires sont nécessaires sur les effets d’une simple extension de la taille des ensembles de données.
La généralisabilité doit être vérifiée sur différentes architectures et ensembles de données LLM.
👍