Bài báo này trình bày Comp-Comp, một khung đánh giá chuẩn cho việc đánh giá các mô hình ngôn ngữ quy mô lớn (LLM) theo từng lĩnh vực cụ thể. Không giống như các phương pháp đánh giá chuẩn dựa trên dữ liệu quy mô lớn hiện có, Comp-Comp đánh giá chính xác và hiệu quả các khía cạnh trên toàn lĩnh vực dựa trên tính toàn diện và tiết kiệm. Tính hiểu biết nâng cao khả năng nhớ lại ngữ nghĩa, trong khi tính tiết kiệm giảm thiểu sự dư thừa và nhiễu, từ đó cải thiện độ chính xác. Thông qua nghiên cứu điển hình nhắm vào một trường đại học, bài báo này trình bày quy trình phát triển PolyBench, một khung đánh giá học thuật quy mô lớn, chất lượng cao, sử dụng Comp-Comp. Điều này chứng minh khả năng ứng dụng của khung Comp-Comp vào nhiều lĩnh vực.