Bài báo này trình bày một đánh giá chẩn đoán sử dụng Ngữ pháp Xây dựng (CxG) để giải quyết những thách thức đánh giá do việc sử dụng các tập dữ liệu tiền huấn luyện lớn gây ra: phân biệt giữa các khả năng ngôn ngữ được thể hiện rõ ràng trong tập dữ liệu tiền huấn luyện và khái quát hóa thành các trường hợp động, thực tế ít phổ biến hơn trong tập dữ liệu tiền huấn luyện. CxG cung cấp một khuôn khổ dựa trên tâm lý ngôn ngữ để kiểm tra khái quát hóa bằng cách liên kết rõ ràng các dạng cú pháp với các ý nghĩa trừu tượng, phi từ vựng. Chúng tôi xây dựng một tập dữ liệu đánh giá suy luận mới sử dụng các cấu trúc cụm từ tiếng Anh, tận dụng khả năng trừu tượng hóa của người nói từ các ví dụ phổ biến để hiểu và tạo ra các ví dụ sáng tạo. Tập dữ liệu này giải quyết hai câu hỏi trọng tâm: liệu các mô hình có thể "hiểu" ý nghĩa của các câu ít được thể hiện trong tập dữ liệu tiền huấn luyện nhưng lại trực quan và dễ hiểu đối với con người hay không; và liệu chúng có thể sử dụng ý nghĩa cấu trúc một cách phù hợp khi được cung cấp các cấu trúc giống hệt nhau về mặt cú pháp nhưng khác nhau về mặt ngữ nghĩa hay không. Các mô hình tiên tiến, bao gồm GPT-o1, có hiệu suất kém hơn 40% ở nhiệm vụ thứ hai, cho thấy sự thất bại trong việc khái quát hóa các dạng cú pháp giống hệt nhau thành các ý nghĩa cấu trúc riêng biệt, như con người vẫn làm. Chúng tôi đang công khai bộ dữ liệu mới và dữ liệu thử nghiệm liên quan (bao gồm cả lời nhắc và phản hồi của mô hình).