Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mạng nơ-ron Bayesian chính xác

Created by
  • Haebom

Tác giả

Carlos Stein Brito

Phác thảo

Bài báo này phân tích việc sử dụng chưa hiệu quả mạng nơ-ron Bayes (BNN) do sự không nhất quán của phân phối xác suất hậu nghiệm Gauss chuẩn với hình học mạng, sự bất ổn định của số hạng KL trong các chiều cao, và hiệu chỉnh độ bất định không đáng tin cậy mặc dù độ phức tạp triển khai tăng lên. Chúng tôi xem xét lại vấn đề từ góc độ chính quy hóa và độ bất định của mô hình bằng cách sử dụng phân phối xác suất hậu nghiệm von Mises-Fisher, chỉ phụ thuộc vào hướng trọng số. Điều này tạo ra một giá trị vô hướng duy nhất, có thể diễn giải được trên mỗi lớp, nhiễu chính quy hóa hiệu dụng ($\sigma_{\mathrm{eff}}$), tương ứng với nhiễu Gauss cộng đơn giản trong quá trình truyền thẳng và cho phép hiệu chỉnh KL dạng đóng, gọn nhẹ, có nhận biết chiều. Bằng cách đưa ra một phép xấp xỉ dạng đóng chính xác giữa nồng độ $\kappa$, phương sai kích hoạt và $\sigma_{\mathrm{eff}}$, chúng tôi tạo ra một đơn vị biến phân nhẹ, có thể triển khai được, phù hợp với các kiến ​​trúc chính quy hóa hiện đại và cải thiện hiệu chuẩn mà không làm giảm độ chính xác. Nhận thức về chiều là rất quan trọng đối với quá trình tối ưu hóa ổn định trong các chiều cao và chúng tôi chứng minh rằng BNN có thể có nguyên tắc, thực tế và chính xác bằng cách căn chỉnh xác suất sau biến thiên với hình học nội tại của mạng.

Takeaways, Limitations

Takeaways:
Chúng tôi đề xuất khả năng học mạng nơ-ron Bayes ổn định và hiệu quả ngay cả trong các chiều cao bằng cách sử dụng phân phối xác suất sau von Mises-Fisher cho hướng trọng số.
Cải thiện khả năng hiểu mô hình bằng cách biểu diễn sự không chắc chắn thông qua giá trị vô hướng có thể diễn giải được gọi là nhiễu ($\sigma_{\mathrm{eff}}$) sau khi chuẩn hóa hiệu quả.
Cung cấp các đơn vị biến thiên nhẹ áp dụng cho kiến ​​trúc mạng nơ-ron nhân tạo hiện đại.
Cải thiện hiệu suất bù trừ và ngăn chặn sự suy giảm độ chính xác
Limitations:
Cần phải xác minh thêm để xác định xem các giả định đưa ra khi sử dụng phân phối von Mises-Fisher có áp dụng được cho mọi loại kiến ​​trúc mạng nơ-ron hay không.
Cần có thêm các thí nghiệm để xác định phương pháp đề xuất có thể khái quát hóa tốt như thế nào trên các tập dữ liệu và nhiệm vụ khác nhau.
Cần phải phân tích sâu hơn về độ chính xác của các phép tính gần đúng dạng đóng.
👍