Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CMPhysBench : une référence pour l'évaluation des grands modèles de langage en physique de la matière condensée

Created by
  • Haebom

Auteur

Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng

Contour

CMPhysBench est un nouveau benchmark conçu pour évaluer les performances des modèles de langage à grande échelle (MLL) en physique de la matière condensée. Il comprend plus de 520 questions de niveau master, couvrant les principaux sous-domaines et cadres théoriques fondamentaux de la physique de la matière condensée, notamment le magnétisme, la supraconductivité et les systèmes fortement corrélés. Il se concentre sur les problèmes de calcul exigeant des LLM qu'ils génèrent indépendamment des solutions complètes, garantissant ainsi une compréhension approfondie du processus de résolution de problèmes. De plus, il s'appuie sur une représentation arborescente des expressions pour introduire le score SEED (Scalable Expression Edit Distance), fournissant des scores partiels précis (non binaires) et évaluant plus précisément la similarité entre les prédictions et la bonne réponse. Les résultats montrent que même le modèle le plus performant, Grok-4, atteint un score SEED moyen de 36 et une précision de 28 % sur CMPhysBench, ce qui démontre un écart de performance significatif par rapport à la physique traditionnelle dans ce domaine pratique et de pointe. Le code et le jeu de données sont accessibles au public à l'adresse https://github.com/CMPhysBench/CMPhysBench .

Takeaways, Limitations

Takeaways: Nous avons présenté un nouveau benchmark (CMPhysBench) permettant d'évaluer avec précision les performances du LLM en physique de la matière condensée. Le score SEED permet une évaluation plus précise des performances. Il révèle également d'importantes limites dans la capacité du LLM actuel à résoudre les problèmes de physique de la matière condensée. Le code et les jeux de données ouverts faciliteront la poursuite des recherches et du développement.
Limitations: Le benchmark actuel se concentre uniquement sur les problèmes informatiques et pourrait ne pas refléter pleinement d'autres aspects de la physique de la matière condensée (par exemple, la compréhension conceptuelle et l'analyse théorique). La difficulté et la portée des questions du benchmark devront être élargies à l'avenir. Comme il se concentre sur un LLM spécifique, des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité à d'autres types de modèles.
👍