Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bài báo này đề xuất MUSE (Độ bất định đa LLM thông qua các tập hợp con), một phương pháp định lượng độ bất định tận dụng tính đa dạng của mô hình để giải quyết vấn đề bất nhất của các mô hình ngôn ngữ quy mô lớn (LLM). MUSE sử dụng Phân kỳ Jensen-Shannon để xác định và tổng hợp các tập hợp con được hiệu chuẩn tốt của LLM, cung cấp các ước tính độ bất định đáng tin cậy hơn. Phương pháp này dựa trên giả định rằng LLM cung cấp các dự đoán bổ sung do các quy trình học khác nhau của chúng và phân phối Zipfian của ngôn ngữ. Phương pháp này chứng minh hiệu suất hiệu chuẩn và dự đoán được cải thiện so với các mô hình đơn mô hình và mô hình dựa trên tập hợp đơn giản trong các tác vụ dự đoán nhị phân. Chúng tôi cũng khám phá cách MUSE có thể được sử dụng kết hợp với phương pháp chưng cất chuỗi suy nghĩ để tinh chỉnh hiệu chuẩn của LLM. MUSE có sẵn trên GitHub.
Takeaways, Limitations
•
Takeaways:
◦
Chúng tôi chứng minh rằng việc tận dụng tính đa dạng của mô hình LLM có thể cải thiện độ chính xác của ước tính độ không chắc chắn.
◦
Phương pháp MUSE dựa trên phân kỳ Jensen-Shannon vượt trội hơn các mô hình đơn lẻ và mô hình dựa trên tập hợp đơn giản.
◦
Khả năng cải thiện hiệu chỉnh LLM thông qua sự kết hợp với phương pháp chưng cất chuỗi suy nghĩ.
◦
Cung cấp khả năng mở rộng nghiên cứu và sử dụng thông qua việc phát hành mã nguồn mở phương pháp MUSE đã phát triển.
•
Limitations:
◦
Hiện tại, chỉ có kết quả thử nghiệm cho các vấn đề phân loại nhị phân được trình bày và cần nghiên cứu thêm để xác định khả năng tổng quát hóa cho phân loại đa lớp hoặc các loại nhiệm vụ khác.
◦
Những cải tiến về hiệu suất của MUSE có thể bị giới hạn ở các tập dữ liệu và mô hình cụ thể và khả năng tổng quát hóa của nó trong nhiều tình huống khác nhau cần được xác minh.
◦
Thiếu phân tích hiệu suất so sánh bằng cách sử dụng các số liệu lý thuyết thông tin khác ngoài Jensen-Shannon Divergence.
◦
Cần nghiên cứu thêm để tối ưu hóa chiến lược lựa chọn tập hợp con của LLM.