Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning in LLMs

Created by
  • Haebom

作者

Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo

概要

本稿では、大規模言語モデル(LLM)の数学的推論能力を評価するための新しいベンチマークであるPutnam-AXIOMを紹介します。既存のベンチマークの限界である過適合問題を解決するために、権威あるウィリアム・ローウェル・パトナム数学競技大会問題522個に基づいて構成され、変数と定数を変形して生成された100個の変形問題セットであるPutnam-AXIOM Variationも付属しています。 Putnam-AXIOM Variationは、無限の数の同様の難易度の新しい問題を生成することで、過適合問題を軽減します。実験の結果、最高性能モデルであるOpenAIのo1-previewでさえも、元の問題セットで41.9%の精度を示しましたが、変形問題セットでは精度が19.6%減少しました。これは、LLMが問題を単純に暗記する傾向を示し、動的なベンチマークの必要性を強調します。本論文は,精度測定に加えて,推論過程を直接評価するTeacher-Forced Accuracy(TFA)指標を提示した。データと評価コードは公開されています。

Takeaways、Limitations

Takeaways:
既存のベンチマークの過適合問題を解決する新しいベンチマークPutnam-AXIOMの提示
LLMの数学的推論能力の客観的かつ厳格な評価基準の提供
LLMの単純暗記傾向を明らかにし、動的なベンチマークの必要性を強調
推論プロセスを評価する新しい指標であるTeacher-Forced Accuracy(TFA)提案
大規模言語モデルの数学的推論能力の現状の詳細な分析を提供
Limitations:
Putnam-AXIOMは高等数学問題に焦点を当てており、他の領域の推論能力の評価には適用が制限されている可能性があります
TFA指標の一般性と客観性に関するさらなる研究が必要
プットナム大会問題の特殊性による一般化の難しさの存在の可能性
👍