Cet article présente la mise à l'échelle en fonction du temps d'entrée (Input-Time Scaling), un nouveau paradigme de mise à l'échelle qui complète les méthodes de mise à l'échelle existantes des modèles de langage à grande échelle (LLM), telles que la mise à l'échelle des données et de l'apprentissage et la mise à l'échelle du temps d'inférence. Cette méthode exploite les métaconnaissances pour améliorer les entrées grâce à diverses stratégies et met en évidence un phénomène appelé « co-conception entraînement-test », où des stratégies sont appliquées à la fois pendant l'apprentissage et les tests. Il est intéressant de noter que nous constatons que les ensembles de données de faible qualité sont parfois plus performants et que des performances optimales peuvent être atteintes avec seulement 1 000 exemples sélectionnés aléatoirement. Ce résultat contredit l'idée reçue selon laquelle « à l'entrée, à la sortie, on obtient des résultats médiocres ». L'apprentissage avec davantage de données de haute qualité n'améliore pas toujours les performances et est cohérent avec le phénomène « moins, c'est plus », où des capacités d'inférence de grande dimension peuvent être obtenues avec seulement 1 000 exemples. Les résultats expérimentaux obtenus avec le modèle Qwen2.5-32B-Instruct ont permis d'atteindre des performances de pointe (76,7 %) sur AIME24 et AIME25. La combinaison des trois modèles par vote majoritaire a permis d'atteindre une performance de 80 % sur AIME25. Avec le modèle DeepSeek-R1-Distill-Qwen-32B, nous avons obtenu une performance de 86,7 % sur AIME24 et de 76,7 % sur AIME25. Nous prévoyons de rendre le jeu de données, le pipeline de données, les résultats d'évaluation et les points de contrôle open source.