Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

Created by
  • Haebom

作者

Weida Wang, Donchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Dou、Dongfei Cui、Changyong He、Jin Zeng、Zeke Xie、Mao Su、Dongzhan Zhou、Yuqiang Li、Wanli Ouyang、Yunqi Cai、Xi Dai、Shufei Zhang、Lei Bai、Jinguang Cheng、Zhong Fang、Hongming Weng

概要

CMPhysBenchは、凝縮物質物理学の分野における大規模言語モデル(LLM)の能力を評価するための新しいベンチマークです。 520以上の大学院レベルの質問で構成されており、磁性、超伝導体、強く相関したシステムなど、凝縮物質物理学の主なサブ分野と基礎理論的枠組みを扱います。トラブルシューティングプロセスの深い理解を得るためには、計算問題に焦点を当て、LLMは独立して包括的な解決策を作成する必要があります。さらに、式のツリーベースの表現を活用して拡張可能な式編集距離(SEED)スコアを導入し、正確な(非バイナリ)部分スコアを提供し、予測と正解の間の類似性をより正確に評価します。結果は、最高性能モデルであるGrok-4でさえCMPhysBenchで平均SEEDスコア36点、精度28%に過ぎないことを示しており、特に実用的で最先端の分野で既存物理学に比べてかなりの能力差があることを強調しています。コードとデータセットはhttps://github.com/CMPhysBench/CMPhysBenchで公開されています。

Takeaways、Limitations

Takeaways:凝縮物質物理学の分野でLLMの性能を正確に評価できる新しいベンチマークであるCMPhysBenchを紹介します。 LLMの凝縮物質物理学の問題解決能力に対するかなりのギャップを明らかにします。 SEEDスコアは正確なパフォーマンス評価を可能にします。公開されたコードとデータセットを通じて継続的な研究と発展を促進します。
Limitations:現在、最高性能モデルでさえCMPhysBenchで低い精度を示し、LLMの凝縮物質物理学の理解を向上させるためのさらなる研究が必要であることを示唆しています。ベンチマークの質問範囲は、凝縮物質物理学のすべての領域を完全に網羅できない可能性があります。 SEED スコアの計算複雑度が高い場合があります。
👍