Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

TokUR: Ước tính độ bất định cấp mã thông báo cho suy luận mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Tunyu Zhang, Haizhou Shi, Yibin Wang, Hengyi Wang, Xiaoxiao He, Zhuowei Li, Haoxian Chen, Ligong Han, Kai Xu, Huân Zhang, Dimitris Metaxas, Hao Wang

Phác thảo

Bài báo này đề xuất TokUR, một khuôn khổ ước lượng độ bất định ở cấp độ token, để giải quyết sự không nhất quán trong khả năng suy luận toán học của các mô hình ngôn ngữ quy mô lớn (LLM). TokUR áp dụng nhiễu loạn trọng số ngẫu nhiên chiều thấp vào giải mã LLM để tạo ra một phân phối dự đoán, sau đó được sử dụng để ước lượng độ bất định ở cấp độ token. Độ bất định ở cấp độ token ước lượng được tổng hợp để phản ánh độ bất định ngữ nghĩa của chuỗi được tạo ra, từ đó đánh giá độ chính xác của phản hồi và tính mạnh mẽ của mô hình. Kết quả thực nghiệm sử dụng các tập dữ liệu suy luận toán học có độ khó khác nhau chứng minh rằng phương pháp được đề xuất vượt trội hơn các phương pháp ước lượng độ bất định hiện có và độ bất định này có thể được sử dụng để nâng cao hiệu suất suy luận của mô hình thông qua các thuật toán lọc đa thế hệ và lọc hạt.

Takeaways, Limitations

Takeaways:
Một phương pháp mới để ước tính chính xác mức độ không chắc chắn ở cấp độ mã thông báo trong quá trình suy luận LLM được trình bày.
Chúng tôi chứng minh rằng ước tính độ không chắc chắn có thể cải thiện độ chính xác và độ mạnh mẽ của phản hồi LLM.
Chúng tôi trình bày khả năng cải thiện hiệu suất suy luận của LLM bằng cách sử dụng các thuật toán lọc hạt và tạo nhiều thế hệ dựa trên sự không chắc chắn.
Cung cấp các phương pháp đánh giá và cải tiến hiệu quả để có được phản hồi đáng tin cậy từ các LLM.
Limitations:
Hiệu quả của phương pháp đề xuất có thể bị giới hạn ở một số tập dữ liệu suy luận toán học nhất định.
Cần có thêm nghiên cứu về hiệu suất khái quát hóa cho các loại vấn đề khác hoặc nhiệm vụ lý luận phức tạp.
Cần nghiên cứu thêm về các thiết lập tham số tối ưu cho nhiễu loạn trọng số ngẫu nhiên chiều thấp.
Cần phải xác minh thêm về khả năng áp dụng và hiệu quả trong các ứng dụng thực tế.
👍