Trong bài báo này, chúng tôi đề xuất KonTest, một khuôn khổ kiểm thử tự động dùng để xác định và đo lường một cách có hệ thống các điểm không nhất quán và khoảng cách kiến thức trong các mô hình ngôn ngữ quy mô lớn (LLM). KonTest tận dụng đồ thị kiến thức để tạo ra các trường hợp kiểm thử và kết hợp các truy vấn tương đương về mặt ngữ nghĩa với các oracle kiểm thử (oracle chuyển đổi hoặc oracle bản thể) để điều tra và đo lường các điểm không nhất quán trong kiến thức thế giới của LLM. Hơn nữa, nó giảm thiểu khoảng cách kiến thức thông qua một tập hợp mô hình LLM có trọng số. Kết quả thử nghiệm sử dụng bốn LLM tiên tiến—Falcon, Gemini, GPT3.5 và Llama2—cho thấy KonTest đã tạo ra 1.917 đầu vào gây lỗi (19,2%) trong số 9.979 đầu vào kiểm thử, dẫn đến khoảng cách kiến thức là 16,5% trên tất cả các LLM được kiểm thử. Một phương pháp giảm thiểu dựa trên bộ kiểm thử của KonTest đã giảm khoảng cách kiến thức LLM xuống 32,48%. Các nghiên cứu cắt bỏ bổ sung chứng minh rằng hiệu quả xây dựng kiến thức của GPT3.5 chỉ đạt 60-68%, khiến nó không phù hợp để thử nghiệm tính nhất quán dựa trên kiến thức.