Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Input-Time Scaling

Created by
  • Haebom

作者

Rapheal Huang (Yuming), Weilong Guo

概要

この論文では、既存の大規模言語モデル(LLM)の拡張方式であるデータと学習規模の拡張、推論時間の拡張を補完する新しい拡張パラダイムである入力時間拡張(Input-Time Scaling)を提示します。この方法は、メタ知識を活用してさまざまな戦略で入力を改善し、学習とテストの両方で戦略を適用する「学習テスト共同設計」の現象を発見しました。興味深いことに、低品質のデータセットがより良いパフォーマンスを示す可能性があり、ランダムに選択された1,000の例で最高のパフォーマンスを達成できることがわかりました。これは、「ごみ入力、ごみ出力」という一般的な仮定に反する結果です。より高品質なデータで学習することは常にパフォーマンスの向上につながるわけではなく、1,000の例だけでも高次元推論能力を発揮できるという「Less is More」現象とも一致します。 Qwen2.5-32B-Instructモデルを使用した実験の結果、AIME24とAIME25で最先端の性能(76.7%)を達成し、3つのモデルを多数決で合わせるとAIME25で80%の性能を達成しました。 DeepSeek-R1-Distill-Qwen-32Bモデルを使用したときは、AIME24で86.7%、AIME25で76.7%の性能を達成しました。データセット、データパイプライン、評価結果、チェックポイントをオープンソースで公開する予定です。

Takeaways、Limitations

Takeaways:
既存のデータと学習規模の拡張,推論時間の拡張を補完する新しい入力時間拡張パラダイムを提示
学習 - テスト共同設計の重要性の発見
低品質のデータセットが高品質のデータセットよりも優れたパフォーマンスを示す可能性があることを確認する(Garbage in、Garbage out反論
Less is More 現象との一貫性確認(少量のデータでも高次元推論可能)
AIME24とAIME25でSOTA性能を達成
データセット、コードなどのオープンソース公開予定
Limitations:
現時点では、特定のモデル(Qwen2.5-32B-Instruct、DeepSeek-R1-Distill-Qwen-32B)の実験結果のみが提示され、一般化の可能性に関するさらなる研究が必要です
入力時間拡張の効果がすべてのLLMに適用できるかどうかをさらに検証する必要がある
学習-テスト共同設計の具体的なメカニズムの追加分析が必要
オープンソースの公開がまだ完了していない。
👍