この論文では、既存の大規模言語モデル(LLM)の拡張方式であるデータと学習規模の拡張、推論時間の拡張を補完する新しい拡張パラダイムである入力時間拡張(Input-Time Scaling)を提示します。この方法は、メタ知識を活用してさまざまな戦略で入力を改善し、学習とテストの両方で戦略を適用する「学習テスト共同設計」の現象を発見しました。興味深いことに、低品質のデータセットがより良いパフォーマンスを示す可能性があり、ランダムに選択された1,000の例で最高のパフォーマンスを達成できることがわかりました。これは、「ごみ入力、ごみ出力」という一般的な仮定に反する結果です。より高品質なデータで学習することは常にパフォーマンスの向上につながるわけではなく、1,000の例だけでも高次元推論能力を発揮できるという「Less is More」現象とも一致します。 Qwen2.5-32B-Instructモデルを使用した実験の結果、AIME24とAIME25で最先端の性能(76.7%)を達成し、3つのモデルを多数決で合わせるとAIME25で80%の性能を達成しました。 DeepSeek-R1-Distill-Qwen-32Bモデルを使用したときは、AIME24で86.7%、AIME25で76.7%の性能を達成しました。データセット、データパイプライン、評価結果、チェックポイントをオープンソースで公開する予定です。