Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Benchmarking LLMs' Mathematical Reasoning with Unseen Random Variables Questions

Created by
  • Haebom

作者

Zijin Hong, Hao Wu, Su Dong, Junnan Dong, Yilin Xiao, Yujing Zhang, Zhu Wang, Feiran Huang, Linyi Li, Hongxia Yang, Xiao Huang

概要

本論文は、既存の数学ベンチマークの信頼性問題(単純な設計とデータ汚染)を指摘し、大規模言語モデル(LLM)の数学的推論能力を効果的に評価する新しいベンチマークであるRV-Benchを提案します。 RV-Benchは、ランダム変数を含む問題(RVQ)を生成する関数を使用して、既存の問題と似ていますが、変数の組み合わせがランダムである「見えない」問題を生成します。 LLMがさまざまな変数の組み合わせでRVQに正確に答えるためには、問題の本質的なパターンを完全に理解する必要があるため、RV-Benchでの精度と堅牢性によってLLMの真の推論能力を評価できます。 30を超えるLLMと1,000を超えるRVQを使用した実験の結果、LLMは、見たことのないデータと「見えない」データ分布との間で熟練度の不均衡を示し、同様の数学的推論課題に対する熟練度の一般化は限られていますが、テストタイムスケーリングによって効果的に導くことができることを確認しました。

Takeaways、Limitations

Takeaways:
既存の数学ベンチマークの限界を克服する新しいベンチマークRV-Benchの提示
LLMの真の数学的推論能力を評価可能
LLMのデータ分布による熟練度の不均衡と一般化能力の制限を明らかにする
試験時間スケーリングによる熟練度向上の可能性を提示
Limitations:
RV-Benchの汎用性と拡張性に関するさらなる研究が必要
テスト時間スケーリングの効果のより詳細な分析が必要
様々な種類の数学的推論問題に対する一般化可能性検証が必要
👍