Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SKA-Bench: Một chuẩn mực chi tiết để đánh giá sự hiểu biết về kiến ​​thức có cấu trúc của LLM

Created by
  • Haebom

Tác giả

Zhiqiang Liu, Enpei Niu, Yin Hua, Mengshu Sun, Lei Liang, Huajun Chen, Wen Zhang

Phác thảo

Bài báo này đề xuất SKA-Bench, một chuẩn mực mới để đánh giá khả năng hiểu kiến ​​thức có cấu trúc (SK) của các mô hình ngôn ngữ quy mô lớn (LLM). SKA-Bench bao gồm bốn loại SK: đồ thị kiến ​​thức (KG), bảng, KG+văn bản và bảng+văn bản, bao gồm các câu hỏi, câu trả lời, đơn vị kiến ​​thức tích cực và đơn vị kiến ​​thức tiêu cực. Để đánh giá chính xác khả năng hiểu SK của các LLM, chúng tôi đánh giá bốn khía cạnh: độ bền với nhiễu, độ nhạy với thứ tự, khả năng tích hợp thông tin và khả năng loại bỏ thông tin tiêu cực. Các thí nghiệm trên tám LLM tiêu biểu cho thấy các LLM hiện tại vẫn gặp khó khăn trong việc hiểu SK, và hiệu suất của chúng bị ảnh hưởng bởi các yếu tố như lượng nhiễu, thứ tự các đơn vị kiến ​​thức và ảo giác. Bộ dữ liệu và mã có sẵn trên GitHub.

Takeaways, Limitations

Takeaways:
Chúng tôi xin giới thiệu SKA-Bench, một chuẩn mực mới đánh giá toàn diện và nghiêm ngặt khả năng hiểu kiến ​​thức có cấu trúc của LLM.
Chúng tôi đã phát hiện ra những hạn chế trong khả năng hiểu kiến ​​thức có cấu trúc ở nhiều khía cạnh khác nhau (nhiễu, trật tự, tích hợp thông tin và loại bỏ thông tin tiêu cực) của LLM hiện tại.
Chúng tôi đề xuất các hướng nghiên cứu nhằm cải thiện hiệu suất của LLM.
Hỗ trợ nghiên cứu tiếp theo thông qua các tập dữ liệu và mã có sẵn công khai.
Limitations:
Các loại kiến ​​thức có cấu trúc được SKA-Bench đề cập có thể bị hạn chế.
Vẫn còn chỗ để cải thiện về phương pháp và số liệu đánh giá.
Các loại LLM được sử dụng trong thí nghiệm có thể đa dạng hơn.
👍