大規模言語モデル(LLM)のアルゴリズム推論能力を評価するために、順序、階層、接続性などの関係を理解し操作する構造的推論に焦点を当てます。 DSR-Benchは、解釈可能でアルゴリズム的に意味のある抽象化を提供する標準データ構造を通じてLLMの構造的推論を体系的に評価する最初のベンチマークです。 20のデータ構造、35の操作、4,140の合成的に生成された問題のインスタンスを含み、階層設計によって特定の障害モードを正確に特定し、完全自動化された評価で客観的かつ一貫した評価を保証します。 10の最先端LLMをベンチマークした結果、最高性能モデルでさえ難しいインスタンスで0.498点を記録し、深刻な限界が明らかになった。さらなる評価により、空間データ、自然言語シナリオ、自己生成コードに対する推論能力の弱点を確認した。 DSR-Benchは、構造的推論のための原則的な診断ツールを提供し、推論のボトルネックを特定し、より強力で信頼性の高いLLM開発を支援します。