Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures

Created by
  • Haebom

作者

Yu He, Yingxi Li, Colin White, Ellen Vitercik

概要

大規模言語モデル(LLM)のアルゴリズム推論能力を評価するために、順序、階層、接続性などの関係を理解し​​操作する構造的推論に焦点を当てます。 DSR-Benchは、解釈可能でアルゴリズム的に意味のある抽象化を提供する標準データ構造を通じてLLMの構造的推論を体系的に評価する最初のベンチマークです。 20のデータ構造、35の操作、4,140の合成的に生成された問題のインスタンスを含み、階層設計によって特定の障害モードを正確に特定し、完全自動化された評価で客観的かつ一貫した評価を保証します。 10の最先端LLMをベンチマークした結果、最高性能モデルでさえ難しいインスタンスで0.498点を記録し、深刻な限界が明らかになった。さらなる評価により、空間データ、自然言語シナリオ、自己生成コードに対する推論能力の弱点を確認した。 DSR-Benchは、構造的推論のための原則的な診断ツールを提供し、推論のボトルネックを特定し、より強力で信頼性の高いLLM開発を支援します。

Takeaways、Limitations

Takeaways:
LLMの構造的推論能力を評価する新しいベンチマークであるDSR-Benchの提示
様々なデータ構造と演算によるLLMの推論能力を体系的に評価
最先端LLMの構造的推論能力の具体的なLimitations提示
LLMの推論ボトルネックの把握と改善方向の提示に貢献
Limitations:
特定のデータ構造と演算に限定された評価範囲
DSR-Benchがカバーしない他のタイプの推論能力の存在の可能性
評価結果は、特定のLLMアーキテクチャまたはトレーニングデータに依存する可能性があります
👍