Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Bộ biến đổi một lớp được chứng minh là tối ưu cho suy luận trong ngữ cảnh và học tập liên kết phân phối trong các nhiệm vụ dự đoán mã thông báo tiếp theo

Created by
  • Haebom

Tác giả

Quân Nguyên, Thanh Nguyên-Tăng

Phác thảo

Bài báo này nghiên cứu hành vi xấp xỉ và hội tụ của các bộ biến đổi một lớp để dự đoán mã thông báo tiếp theo trong cả môi trường không nhiễu và có nhiễu. Các kết quả lý thuyết trước đây tập trung vào việc hiểu hành vi suy luận trong các tình huống mà bước gradient đầu tiên hoặc số lượng mẫu là vô hạn. Hơn nữa, tốc độ hội tụ và khả năng khái quát hóa của chúng vẫn chưa được biết. Nghiên cứu này giải quyết khoảng trống này bằng cách chứng minh sự tồn tại của một lớp các bộ biến đổi một lớp có thể chứng minh được là tối ưu Bayes bằng cách sử dụng sự chú ý tuyến tính và ReLU. Khi được đào tạo bằng cách sử dụng gradient descent, nghiên cứu này chứng minh thông qua phân tích mẫu hữu hạn rằng tổn thất dự kiến ​​của các bộ biến đổi này hội tụ tuyến tính đến rủi ro Bayesian. Hơn nữa, chúng tôi chứng minh rằng các mô hình được đào tạo có khả năng khái quát hóa tốt đối với các mẫu chưa thấy và thể hiện các hành vi học tập được quan sát theo kinh nghiệm trong các nghiên cứu trước đây. Những phát hiện lý thuyết này được hỗ trợ bởi xác thực thực nghiệm rộng rãi.

Takeaways, Limitations

Takeaways:
Tính tối ưu Bayesian của máy biến áp một lớp được chứng minh dưới cả sự chú ý tuyến tính và ReLU.
Phân tích mẫu hữu hạn chứng minh rằng tổn thất dự kiến ​​của máy biến áp một lớp hội tụ tuyến tính theo rủi ro Bayesian.
Giải thích lý thuyết về khả năng khái quát của các mô hình được đào tạo và hành vi học tập được quan sát theo kinh nghiệm.
Limitations:
Phân tích này chỉ giới hạn ở máy biến áp một lớp. Việc khái quát hóa cho máy biến áp nhiều lớp cần được nghiên cứu thêm.
Vì phân tích này dành cho một loại máy biến áp một lớp cụ thể nên không rõ liệu nó có thể áp dụng cho tất cả các máy biến áp một lớp hay không.
Kết quả xác minh thực nghiệm hỗ trợ kết quả lý thuyết nhưng không đảm bảo hiệu suất trong các ứng dụng thực tế.
👍