Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Kiểm tra tính nhất quán dựa trên kiến thức của các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Sai Sathiesh Rajan, Ezekiel Soremekun, Sudipta Chattopadhyay

Phác thảo

Trong bài báo này, chúng tôi đề xuất KonTest, một khuôn khổ kiểm thử tự động dùng để xác định và đo lường một cách có hệ thống các điểm không nhất quán và khoảng cách kiến thức trong các mô hình ngôn ngữ quy mô lớn (LLM). KonTest tận dụng đồ thị kiến thức để tạo ra các trường hợp kiểm thử và kết hợp các truy vấn tương đương về mặt ngữ nghĩa với các oracle kiểm thử (oracle chuyển đổi hoặc oracle bản thể) để điều tra và đo lường các điểm không nhất quán trong kiến thức thế giới của LLM. Hơn nữa, nó giảm thiểu khoảng cách kiến thức thông qua một tập hợp mô hình LLM có trọng số. Kết quả thử nghiệm sử dụng bốn LLM tiên tiến—Falcon, Gemini, GPT3.5 và Llama2—cho thấy KonTest đã tạo ra 1.917 đầu vào gây lỗi (19,2%) trong số 9.979 đầu vào kiểm thử, dẫn đến khoảng cách kiến thức là 16,5% trên tất cả các LLM được kiểm thử. Một phương pháp giảm thiểu dựa trên bộ kiểm thử của KonTest đã giảm khoảng cách kiến thức LLM xuống 32,48%. Các nghiên cứu cắt bỏ bổ sung chứng minh rằng hiệu quả xây dựng kiến thức của GPT3.5 chỉ đạt 60-68%, khiến nó không phù hợp để thử nghiệm tính nhất quán dựa trên kiến thức.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ kiểm tra tự động (KonTest) để đo lường và giảm thiểu một cách có hệ thống những điểm không nhất quán và khoảng cách kiến thức trong LLM.
ĐO lường định lượng tỷ lệ lỗi thực tế và khoảng cách kiến thức của LLM thông qua KonTest và trình bày quy mô của nó.
Chúng tôi chứng minh rằng khoảng cách kiến thức trong LLM có thể được thu hẹp đáng kể bằng cách sử dụng phương pháp giảm thiểu dựa trên KonTest.
Chúng tôi trình bày các đặc điểm của mô hình phù hợp và không phù hợp với bài kiểm tra tính nhất quán dựa trên kiến thức của LLM.
Limitations:
Việc tạo trường hợp kiểm tra của KonTest dựa trên biểu đồ kiến thức, do đó hiệu suất của nó có thể bị ảnh hưởng bởi tính đầy đủ và chính xác của biểu đồ kiến thức.
ĐốI tượng thi cho chương trình LLM bị hạn chế và cần phải thi cho nhiều chương trình LLM hơn.
Cần phân tích sâu hơn để xác định lý do tại sao hiệu quả xây dựng kiến thức của GPT-3.5 lại thấp.
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của phương pháp giảm thiểu.
👍