Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Lượng hóa sự không chắc chắn cho các mô hình ngôn ngữ: Một bộ hộp đen, hộp trắng, thẩm phán LLM và người chấm điểm tổng hợp

Created by
  • Haebom

Tác giả

Dylan Bouchard, Mohit Singh Chauhan

Phác thảo

Bài báo này trình bày một khuôn khổ phát hiện ảo giác đa năng, không cần tài nguyên để giải quyết vấn đề ảo giác trong các mô hình ngôn ngữ quy mô lớn (LLM). Nó tận dụng các kỹ thuật định lượng bất định (UQ) khác nhau, bao gồm UQ hộp đen, UQ hộp trắng và LLM-as-a-Judge, bằng cách chuyển đổi chúng thành các điểm tin cậy chuẩn hóa, ở cấp độ phản hồi, dao động từ 0 đến 1. Một phương pháp tổng hợp có thể điều chỉnh được, kết hợp nhiều điểm tin cậy riêng lẻ được đề xuất, cho phép tối ưu hóa cho các trường hợp sử dụng cụ thể. Bộ công cụ Python UQLM giúp đơn giản hóa việc triển khai, và các thử nghiệm trên một số điểm chuẩn trả lời câu hỏi LLM cho thấy phương pháp tổng hợp vượt trội hơn cả các thành phần riêng lẻ và các phương pháp phát hiện ảo giác hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ thực tế và linh hoạt để phát hiện ảo giác trong LLM trong môi trường không có tài nguyên.
Một phương pháp tổng hợp có thể điều chỉnh tích hợp nhiều kỹ thuật UQ khác nhau để cho phép tối ưu hóa theo trường hợp sử dụng của bạn.
Dễ dàng triển khai và sử dụng khuôn khổ thông qua bộ công cụ Python UQLM.
Đã Chứng minh bằng thực nghiệm rằng phương pháp này có hiệu suất phát hiện ảo giác vượt trội so với các phương pháp hiện có.
Góp phần nâng cao độ tin cậy của LLM trong các lĩnh vực có rủi ro cao như y học và tài chính.
Limitations:
Cần có thêm nghiên cứu về hiệu suất tổng quát của khuôn khổ đề xuất.
Cần có nhiều thử nghiệm mở rộng hơn trên nhiều LLM và tập dữ liệu khác nhau.
Quá trình tối ưu hóa cho các trường hợp sử dụng cụ thể có thể gây khó khăn cho người dùng.
Bộ công cụ UQLM cần được bảo trì và cập nhật liên tục.
👍