Bài báo này tập trung vào việc cải thiện hiệu quả và tính hiệu suất của việc xây dựng chuẩn mực để đánh giá khả năng chuyên biệt của các mô hình ngôn ngữ quy mô lớn (LLM). Các chuẩn mực chuyên biệt hiện có chủ yếu dựa vào các quy tắc tỷ lệ, tinh chỉnh học có giám sát bằng cách sử dụng các ngữ liệu lớn, hoặc tạo ra các bộ câu hỏi mở rộng. Tuy nhiên, tác động của thiết kế ngữ liệu và bộ câu hỏi trả lời (QA) đối với độ chính xác và khả năng thu hồi của các LLM chuyên biệt vẫn chưa được khám phá. Bài báo này giải quyết khoảng trống này và chứng minh rằng các quy tắc tỷ lệ không phải lúc nào cũng tối ưu để xây dựng các chuẩn mực chuyên biệt. Thay vào đó, chúng tôi đề xuất Comp-Comp, một khuôn khổ chuẩn mực lặp lại dựa trên nguyên tắc toàn diện-khả năng nén. Tính toàn diện đảm bảo khả năng thu hồi ngữ nghĩa cho một miền nhất định, trong khi tính gọn nhẹ cải thiện độ chính xác, hướng dẫn việc xây dựng các ngữ liệu và bộ QA. Để xác thực khuôn khổ này, chúng tôi đã tiến hành một nghiên cứu điển hình tại một trường đại học nổi tiếng để phát triển XUBench, một chuẩn mực toàn diện, quy mô lớn, miền đóng. Mặc dù nghiên cứu này sử dụng bối cảnh học thuật làm nghiên cứu điển hình, nhưng khuôn khổ Comp-Comp được thiết kế để cung cấp những hiểu biết có giá trị về việc xây dựng chuẩn mực trong nhiều lĩnh vực ngoài học thuật.