Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

$\Mu$KE: Chỉnh sửa kiến thức phi cấu trúc Matryoshka của các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Zian Su, Ziyang Huang, Kaiyuan Zhang, Xiangyu Zhang

Phác thảo

Bài báo này đề cập đến những thách thức của các mô hình ngôn ngữ quy mô lớn (LLM), vốn phải đối mặt với những thách thức như ảo giác và rủi ro bảo mật do những hạn chế của dữ liệu huấn luyện tĩnh. Mặc dù mô hình định vị và chỉnh sửa, vốn sửa đổi kiến thức nội bộ của mô hình, đã được chứng minh là một giải pháp thay thế hiệu quả về mặt chi phí cho việc đào tạo lại, nhưng các phương pháp phi cấu trúc hiện tại, đặc biệt là các phương pháp tự hồi quy dựa trên cửa sổ, thường phá vỡ các mối quan hệ phụ thuộc nhân quả giữa các bản cập nhật bộ nhớ ban đầu và các mã thông báo đầu ra tiếp theo. Nghiên cứu này phân tích lý thuyết những hạn chế này và trình bày về Chỉnh sửa Kiến thức Không Cấu trúc Matryoshka ($\mu$KE), một cơ chế cập nhật bộ nhớ mới giúp bảo toàn các mối quan hệ phụ thuộc này bằng cách sử dụng các mục tiêu kiểu Matryoshka và hệ số mất mát thích ứng. Các đánh giá thực nghiệm trên bốn điểm chuẩn cho hai mô hình chứng minh rằng $\mu$KE cải thiện hiệu quả chỉnh sửa lên đến 12,33% so với các phương pháp tiên tiến và vẫn mạnh mẽ trên nhiều định dạng chỉnh sửa khác nhau, làm nổi bật tiềm năng của việc chỉnh sửa kiến thức không cấu trúc hiệu quả trong LLM.

Takeaways, Limitations

Takeaways:
Chỉnh sửa kiến thức phi cấu trúc Matryoshka ($\mu$KE) cho thấy hiệu quả cao hơn tới 12,33% so với các phương pháp chỉnh sửa kiến thức phi cấu trúc truyền thống.
Nó vẫn duy trì hiệu suất mạnh mẽ ngay cả khi chỉnh sửa ở nhiều định dạng khác nhau.
Chúng tôi trình bày một phương pháp hiệu quả để biên tập kiến thức không chính thức trong LLM.
Chúng tôi trình bày một cơ chế duy trì hiệu quả mối quan hệ nhân quả giữa các bản cập nhật bộ nhớ ban đầu và các mã thông báo đầu ra tiếp theo.
Limitations:
Cần nghiên cứu thêm để xác định tính tổng quát và khả năng mở rộng của phương pháp được đề xuất.
Cần đánh giá hiệu suất sâu hơn của $\mu$KE cho nhiều kiến trúc và kích thước LLM khác nhau.
Cần phải xác nhận thêm về khả năng áp dụng và tính an toàn trong môi trường thực tế.
👍