Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mise à l'échelle du temps d'entrée

Created by
  • Haebom

Auteur

Raphéal Huang (Yuming), Weilong Guo

Contour

Cet article présente la mise à l'échelle en fonction du temps d'entrée (Input-Time Scaling), un nouveau paradigme de mise à l'échelle qui complète les méthodes de mise à l'échelle existantes des modèles de langage à grande échelle (LLM), telles que la mise à l'échelle des données et de l'apprentissage et la mise à l'échelle du temps d'inférence. Cette méthode exploite les métaconnaissances pour améliorer les entrées grâce à diverses stratégies et met en évidence un phénomène appelé « co-conception entraînement-test », où des stratégies sont appliquées à la fois pendant l'apprentissage et les tests. Il est intéressant de noter que nous constatons que les ensembles de données de faible qualité sont parfois plus performants et que des performances optimales peuvent être atteintes avec seulement 1 000 exemples sélectionnés aléatoirement. Ce résultat contredit l'idée reçue selon laquelle « à l'entrée, à la sortie, on obtient des résultats médiocres ». L'apprentissage avec davantage de données de haute qualité n'améliore pas toujours les performances et est cohérent avec le phénomène « moins, c'est plus », où des capacités d'inférence de grande dimension peuvent être obtenues avec seulement 1 000 exemples. Les résultats expérimentaux obtenus avec le modèle Qwen2.5-32B-Instruct ont permis d'atteindre des performances de pointe (76,7 %) sur AIME24 et AIME25. La combinaison des trois modèles par vote majoritaire a permis d'atteindre une performance de 80 % sur AIME25. Avec le modèle DeepSeek-R1-Distill-Qwen-32B, nous avons obtenu une performance de 86,7 % sur AIME24 et de 76,7 % sur AIME25. Nous prévoyons de rendre le jeu de données, le pipeline de données, les résultats d'évaluation et les points de contrôle open source.

Takeaways, Limitations

Takeaways:
Un nouveau paradigme de mise à l'échelle du temps d'entrée qui complète les données existantes, la mise à l'échelle de l'apprentissage et la mise à l'échelle du temps d'inférence.
Découvrir l'importance de la co-conception des tests d'entraînement
Nous avons confirmé que les ensembles de données de faible qualité peuvent être plus performants que les ensembles de données de haute qualité (réfutant l'argument Garbage in, Garbage out).
Cohérence avec le phénomène « Moins c'est plus » (inférence à haute dimension possible même avec de petites quantités de données)
Atteindre les performances SOTA sur AIME24 et AIME25
Publication open source d'ensembles de données, de codes, etc.
Limitations:
À Ce jour, seuls les résultats expérimentaux pour des modèles spécifiques (Qwen2.5-32B-Instruct, DeepSeek-R1-Distill-Qwen-32B) ont été présentés, ce qui nécessite des recherches supplémentaires sur la généralisabilité.
Une validation supplémentaire est nécessaire pour déterminer si les effets de l’extension du temps d’entrée peuvent être appliqués à tous les LLM.
Une analyse plus approfondie des mécanismes spécifiques de co-conception apprentissage-test est nécessaire.
La publication open source n'est pas encore terminée.
👍