Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation

Created by
  • Haebom

作者

Jiazheng Li, Hong Lu, Kaiyue Wen, Zaiwen Yang, Jiaxuan Gao, Hongzhou Lin, Yi Wu, Jingzhao Zhang

概要

この論文では、強化学習(RL)を使用して大規模言語推論モデル(LLM)の多段階推論能力を向上させる上で既存のRLの限界を指摘し、これを解決するための新しい方法である質問増強(QuestA)を提案します。 QuestAは、RL学習の過程で部分的な答えを提供し、問題の難易度を下げ、より有益な学習信号を提供するシンプルで効果的な戦略です。数学推論の課題に対するRL学習中にQuestAを適用すると、Pass @ 1とPass @ kのパフォーマンスが向上します。 DeepScaleRやOpenMath Nemotronなどの強力なオープンソースモデルにQuestAを適用し、AIME24、AIME25、HMMT25のベンチマークで新しい最先端の結果(それぞれ67.1%、59.5%、35.5%)を達成しました。さらに、QuestAがサンプル効率を向上させるという理論的説明を提供し、RLを介した推論能力を拡張するための実用的で一般化可能な方法を提供します。

Takeaways、Limitations

Takeaways:
RLベースのLLMの多段階推論能力向上に対する新しいアプローチの提示(QuestA)
数学推論課題における従来のSOTA性能の改善
サンプル効率向上による効率的なRL学習可能性の提示
QuestAの簡潔さと一般化の可能性を通じた様々な推論課題への適用可能性の提示
Limitations:
QuestAの効果が特定の種類の問題(数学的推論)に限定される可能性。
異なる種類の推論課題に対するQuestAの一般化性能に関するさらなる研究の必要性
部分的解答の質と提供時の最適化戦略に関するさらなる研究が必要
👍