Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CMPhysBench: Un punto de referencia para la evaluación de grandes modelos lingüísticos en física de la materia condensada

Created by
  • Haebom

Autor

Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng

Describir

CMPhysBench es un nuevo punto de referencia diseñado para evaluar el rendimiento de los modelos lingüísticos a gran escala (LLM) en física de la materia condensada. Consta de más de 520 preguntas de nivel de posgrado que abarcan subcampos clave y marcos teóricos fundamentales de la física de la materia condensada, como el magnetismo, la superconductividad y los sistemas fuertemente correlacionados. Se centra en problemas computacionales que requieren que los LLM generen soluciones integrales de forma independiente, lo que garantiza una comprensión profunda del proceso de resolución de problemas. Además, aprovecha una representación de expresiones basada en árboles para introducir la puntuación SEED (Distancia de Edición de Expresión Escalable), que proporciona puntuaciones parciales precisas (no binarias) y evalúa con mayor precisión la similitud entre las predicciones y la respuesta correcta. Los resultados muestran que incluso el modelo con mejor rendimiento, Grok-4, alcanza una puntuación SEED promedio de 36 y una precisión del 28 % en CMPhysBench, lo que demuestra una importante brecha de rendimiento en comparación con la física tradicional en este campo práctico y de vanguardia. El código y el conjunto de datos están disponibles públicamente en https://github.com/CMPhysBench/CMPhysBench .

Takeaways, Limitations

Takeaways: Presentamos un nuevo benchmark (CMPhysBench) que permite evaluar con precisión el rendimiento del LLM en física de la materia condensada. La puntuación SEED permite una evaluación más precisa del rendimiento. También revela limitaciones significativas en la capacidad del LLM actual para resolver problemas de física de la materia condensada. El código abierto y los conjuntos de datos facilitarán la investigación y el desarrollo continuos.
Limitations: El punto de referencia actual se centra exclusivamente en problemas computacionales y podría no reflejar plenamente otros aspectos de la física de la materia condensada (p. ej., comprensión conceptual y análisis teórico). La dificultad y el alcance de las preguntas del punto de referencia deben ampliarse en el futuro. Dado que se centra en un LLM específico, se requiere mayor investigación para determinar su generalización a otros tipos de modelos.
👍