Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CMPhysBench: Un punto de referencia para la evaluación de grandes modelos lingüísticos en física de la materia condensada

Created by
  • Haebom

Autor

Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng

Describir

CMPhysBench es un nuevo punto de referencia para evaluar el rendimiento de los modelos lingüísticos a gran escala (LLM) en física de la materia condensada. Consta de más de 520 preguntas de nivel de posgrado que abarcan subcampos clave y marcos teóricos fundamentales de la física de la materia condensada, como el magnetismo, la superconductividad y los sistemas fuertemente correlacionados. Se centra exclusivamente en problemas computacionales para garantizar una comprensión profunda del proceso de resolución de problemas, lo que requiere que los LLM generen soluciones integrales de forma independiente. Además, utiliza una representación de ecuaciones basada en árboles para introducir la puntuación SEED (Distancia de Edición de Expresión Escalable), que proporciona puntuaciones parciales precisas (no binarias) y evalúa con mayor precisión la similitud entre las predicciones y la respuesta correcta. Los resultados muestran que incluso el modelo con mejor rendimiento, Grok-4, alcanza una puntuación SEED promedio de 36 y una precisión de tan solo el 28 % en CMPhysBench, lo que pone de manifiesto una brecha significativa en el rendimiento en comparación con los modelos de física existentes, especialmente en áreas prácticas y de vanguardia. El código y el conjunto de datos están disponibles públicamente en https://github.com/CMPhysBench/CMPhysBench .

Takeaways, Limitations

Takeaways: Presentamos CMPhysBench, un nuevo punto de referencia que evalúa con precisión el rendimiento de los LLM en física de la materia condensada. Revela una brecha significativa en la capacidad de los LLM para resolver problemas de física de la materia condensada. Las puntuaciones SEED permiten una evaluación precisa del rendimiento. El código abierto y los conjuntos de datos facilitan la investigación y el desarrollo continuos.
Limitations: Incluso el modelo con mejor rendimiento actual muestra baja precisión en CMPhysBench, lo que sugiere la necesidad de más investigación para mejorar la comprensión de la física de la materia condensada en el Máster de Derecho (LLM). Es posible que la cobertura de preguntas del benchmark no cubra todas las áreas de la física de la materia condensada. La complejidad computacional de la puntuación SEED puede ser alta.
👍