Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation

Created by
  • Haebom

作者

Sadegh Mahdavi, Muchen Li, Kaiwen Liu, Christos Thrampoulidis, Leonid Sigal, Renjie Liao

概要

本論文では、大規模言語モデル(LLM)の数学的推論能力を向上させるため、アルト・オブ・プラブラム・ソルビング(AoPS)フォーラムの膨大な資料を活用し、60万以上の高品質の質問-回答ペアで構成されたAoPS-Instructデータセットを自動化されたパイプラインを通じて構築した研究を提示します。 AoPS-InstructデータセットでLLMを微調整した結果、さまざまなベンチマークで推論能力が向上することを示しました。さらに、AoPSフォーラムの最新データに基づいて、汚染に強い新しいベンチマークであるLiveAoPSBenchを開発し、LLMのパフォーマンスを評価しました。 LiveAoPSBenchを介して時間の経過とともにLLMのパフォーマンスが低下することを観察し、既存のベンチマークでの成功が事前学習データの露出による可能性を示しています。この研究は、高度な数学推論のための大規模で高品質のデータセットを作成および維持するための拡張可能なアプローチを提供し、この分野でLLMの能力と限界について貴重な洞察を提供します。

Takeaways、Limitations

Takeaways:
AoPSフォーラムデータを活用した大規模で高品質の数学の問題解決データセットAoPS-Instructの構築。
AoPS-Instructを用いたLLM微調整による数学推論能力向上の確認
時間とともに変化するベンチマークLiveAoPSBenchの開発とLLMの性能低下現象を発見。
LLMの真の推論能力評価の新しい視点を提示
スケーラブルなデータセットの作成とメンテナンス方式の提示
Limitations:
AoPSフォーラムデータの偏りを考慮する必要性
LiveAoPSBenchの継続的な管理とメンテナンスが必要です。
LLMの推論能力低下の原因に関するさらなる研究が必要
AoPSフォーラムデータのみを使用した一般化の可能性に限界がある。
👍