Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation

Created by
  • Haebom

作者

Jiazheng Li, Hongzhou Lin, Hong Lu, Kaiyue Wen, Zaiwen Yang, Jiaxuan Gao, Yi Wu, Jingzhao Zhang

概要

強化学習(RL)は、大規模言語モデル(LLM)の推論作業訓練に重要なパラダイムとして登場したが、既存モデルの推論能力以上を奨励することに限界があるという研究結果がある。本論文は,RLを用いてより困難な推論問題を効果的に解決するために,Question Augmentationを提案する。この方法は、訓練中に部分的な解決策を導入し、問題の難易度を下げ、より有益な学習信号を提供する。提案されたQuestA法は、数学的推論作業のためのRLトレーニング中に適用され、pass@1だけでなくpass@kでもパフォーマンスが向上しました。これにより、DeepScaleRやOpenMath Nemotronなどの強力なオープンソースモデルの推論能力をさらに向上させながら継続的な改善を可能にしました。 QuestAは、1.5Bパラメータモデルを使用して、AIME24で72.50%(+10.73%)、AIME25で62.29%(+12.79%)、HMMT25で41.67%(+10.11%)の新しいSOTA結果を達成しました。

Takeaways、Limitations

Takeaways:
Question AugmentationによるRLトレーニングの効果を改善し、数学的推論の問題解決能力を向上させます。
既存の強力なオープンソースモデルのパフォーマンスをさらに向上させます。
1.5Bパラメータモデルで新しいSOTAを達成
Limitations:
論文に具体的なLimitationsへの言及はありません。
👍