Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language モデル

Created by
  • Haebom

作者

Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar

概要

この論文は、大規模言語モデル(LLM)の数学的推論能力を評価するために使用されるGSM8Kベンチマークの制限を指摘し、それを改善するために新しいベンチマークであるGSM-Symbolicを提示します。 GSM-Symbolicはシンボルテンプレートを使用してさまざまな種類の数学問題を生成し、既存の評価の制限を克服してより信頼できる測定指標を提供します。研究の結果、SOTA LLM は同じ問題の他のバリエーションに対してパフォーマンスの違いを示し、特に問題内の数値のみを変更してもパフォーマンスが低下することを確認しました。さらに、問題の節数が増加するにつれて、パフォーマンスが大幅に低下する脆弱性が見られます。これは、LLMが真の論理的推論を実行できず、トレーニングデータから推論フェーズを模倣するためと推測されます。関連のない句を1つだけ追加しても、パフォーマンスが最大65%まで低下する現象を発見しました。結論として、本研究はLLMの数学的推論能力のより洗練された理解を提供する。

Takeaways、Limitations

Takeaways:
GSM-Symbolicベンチマークは、LLMの数学的推論能力をより正確で信頼性をもって評価するための新しい方法を提供しました。
LLMの数学的推論能力の脆弱性を明らかにし、その原因を真の論理的推論の欠如として推測した。
LLMの数学的推論能力を向上させるための新しい研究方向を提示しました。
Limitations:
GSM-SymbolicベンチマークはGSM8Kよりも包括的な評価を提供しますが、まだすべての種類の数学的推論問題を完全に反映することはできません。
LLMの数学的推論能力の低下の原因に関する推測は、追加の研究によって検証する必要があります。
この研究で使用されているLLMモデルの種類とサイズによっては結果が異なる場合があります。
👍