Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

Created by
  • Haebom

作者

Weida Wang, Donchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Dou、Dongfei Cui、Changyong He、Jin Zeng、Zeke Xie、Mao Su、Dongzhan Zhou、Yuqiang Li、Wanli Ouyang、Yunqi Cai、Xi Dai、Shufei Zhang、Lei Bai、Jinguang Cheng、Zhong Fang、Hongming Weng

概要

CMPhysBenchは、凝縮物質物理学の分野における大規模言語モデル(LLM)の能力を評価するために設計された新しいベンチマークです。 520以上の大学院レベルの質問で構成され、磁性、超伝導性、強く相関したシステムなど、凝縮物質物理学の主要なサブ分野と基礎理論的枠組みを扱います。 LLMが独立して包括的な解決策を作成する必要がある計算上の問題に焦点を当てて、トラブルシューティングプロセスの深い理解を確実にします。さらに、式のツリーベースの表現を活用して拡張可能な表現編集距離(SEED)スコアを導入し、正確な(バイナリではない)部分スコアを提供し、予測と正解の間の類似性をより正確に評価します。結果は、最高性能モデルであるGrok-4でさえCMPhysBenchで平均SEEDスコア36点と28%の精度にとどまり、特に伝統的な物理学に比べてこの実用的で最先端の分野でかなりの能力格差を示しています。コードとデータセットはhttps://github.com/CMPhysBench/CMPhysBenchで公開されています。

Takeaways、Limitations

Takeaways:凝縮物質物理学の分野でLLMの性能を正確に評価できる新しいベンチマーク(CMPhysBench)を紹介しました。 SEEDスコアにより、より洗練されたパフォーマンス評価が可能になりました。現在、LLMの凝縮物質物理学の問題解決能力にかなりの限界がありました。公開されたコードとデータセットにより、継続的な研究と発展を促進できます。
Limitations:現在、ベンチマークは計算問題に集中しているため、凝縮物質物理学の他の側面(概念的理解、理論的分析など)を完全に反映できない可能性があります。ベンチマークの質問難易度と範囲が今後さらに拡大する必要があります。特定のLLMにのみ焦点を当てているため、他の種類のモデルの一般化の可能性に関するさらなる研究が必要です。
👍