Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

Created by
  • Haebom

作者

Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Huijie Lv, Ming Zhang, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang

概要

本論文は,強化学習(RL)を用いた大規模言語モデル(LLM)の推論能力向上研究に対する信頼性問題を提起する。従来の研究では、Qwen2.5シリーズモデルでランダムまたは誤った補償信号を使用しても性能が向上したと主張しているが、これはMATH-500、AMC、AIMEなどのベンチマークのデータ汚染の可能性のため信頼できない可能性があることを指摘している。したがって、任意の長さと難易度の完全にクリーンな算術問題を生成するRandomCalculationという新しいデータセットを提示し、これは正確な補償信号のみがモデルの数学的推論能力を向上させることを示しています。また、MATH-500とRandomCalculationのベンチマークで観察された性能差の詳細な分析を行い、今後の研究では汚染されていないベンチマークを使用し、さまざまなモデルシリーズをテストすることを提案します。

Takeaways、Limitations

Takeaways:
強化学習を用いたLLMの推論能力向上研究におけるデータ汚染の深刻性を明らかにする
データ汚染のない新しいベンチマークRandomCalculationを提示します。
正確な補償信号だけがLLMの数学的推論能力を向上させることを証明する。
今後の研究のための信頼できる評価方法論の提示(汚染されていないベンチマークの使用とさまざまなモデルシリーズテスト)。
Limitations:
RandomCalculationデータセットは特定の領域(算術問題)に限定されています。
分析に使用されたモデルはQwen2.5ファミリーに集中しており、一般化の可能性に関するさらなる研究が必要です。
他の種類の報酬シグナルまたは強化学習方法の一般化の可能性に関するさらなる研究が必要です。
👍