Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CMPhysBench: Một chuẩn mực để đánh giá các mô hình ngôn ngữ lớn trong vật lý vật chất ngưng tụ

Created by
  • Haebom

Tác giả

Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng

Phác thảo

CMPhysBench là một chuẩn mực mới để đánh giá hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) trong vật lý vật chất ngưng tụ. Nó bao gồm hơn 520 câu hỏi ở cấp độ sau đại học, bao gồm các lĩnh vực phụ quan trọng và khuôn khổ lý thuyết cơ bản của vật lý vật chất ngưng tụ, bao gồm từ tính, siêu dẫn và các hệ thống tương quan mạnh. Nó chỉ tập trung vào các vấn đề tính toán để đảm bảo hiểu sâu sắc về quy trình giải quyết vấn đề, đòi hỏi các LLM phải tự mình tạo ra các giải pháp toàn diện. Hơn nữa, nó tận dụng biểu diễn phương trình dạng cây để giới thiệu điểm số Khoảng cách Chỉnh sửa Biểu thức Khả mở rộng (SEED), cung cấp điểm số một phần chính xác (không nhị phân) và đánh giá chính xác hơn sự tương đồng giữa các dự đoán và câu trả lời đúng. Kết quả cho thấy ngay cả mô hình hiệu suất tốt nhất, Grok-4, đạt điểm SEED trung bình là 36 và độ chính xác chỉ 28% trên CMPhysBench, làm nổi bật khoảng cách đáng kể về hiệu suất so với các mô hình vật lý hiện có, đặc biệt là trong các lĩnh vực thực tế và tiên tiến. Mã và tập dữ liệu được công khai tại _____T6980____- .

Takeaways, Limitations

Takeaways: Chúng tôi xin giới thiệu CMPhysBench, một chuẩn mực mới đánh giá chính xác hiệu suất của các Thạc sĩ Luật (LLM) trong lĩnh vực vật lý chất rắn. Nó cho thấy một khoảng cách đáng kể về khả năng giải quyết các bài toán vật lý chất rắn của các Thạc sĩ Luật (LLM). Điểm số SEED cho phép đánh giá hiệu suất chính xác. Mã nguồn mở và bộ dữ liệu hỗ trợ cho việc nghiên cứu và phát triển liên tục.
Limitations: Ngay cả mô hình hiệu suất tốt nhất hiện tại cũng cho thấy độ chính xác thấp trên CMPhysBench, cho thấy cần phải nghiên cứu thêm để cải thiện hiểu biết về vật lý chất rắn ngưng tụ trong chương trình Thạc sĩ Luật (LLM). Phạm vi câu hỏi của bài kiểm tra chuẩn có thể không bao quát đầy đủ tất cả các lĩnh vực của vật lý chất rắn ngưng tụ. Độ phức tạp tính toán của điểm số SEED có thể cao.
👍