[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Hỗn hợp các chuyên gia Raytraced

Created by
  • Haebom

Tác giả

Andrea Perin, Giacomo Lagomarsini, Claudio Gallicchio, Giuseppe Nuti

Phác thảo

Bài báo này trình bày về Hỗn hợp các Chuyên gia Raytraced, một kiến trúc MoE xếp chồng tạo ra các đồ thị tính toán với chiều rộng và chiều sâu thay đổi. Trong khi các kiến trúc MoE truyền thống yêu cầu một lượng tính toán cố định cho một mẫu nhất định, phương pháp của chúng tôi cung cấp các dự đoán có độ chính xác tăng dần khi số chu kỳ tính toán tăng lên trên các chuỗi chuyên gia. Tương tự như cách huấn luyện mạng nơ-ron hồi quy, chúng tôi huấn luyện mô hình bằng cách lấy mẫu lặp lại từ một tập hợp các chuyên gia ứng viên và mở rộng các chuỗi. Phương pháp của chúng tôi không yêu cầu bất kỳ cơ chế cân bằng tải nào, và kết quả thử nghiệm ban đầu cho thấy nó giảm thời gian huấn luyện từ 10% đến 40% với độ chính xác tương tự hoặc tốt hơn. Những kết quả này gợi ý một hướng nghiên cứu mới trong lĩnh vực MoE, có khả năng dẫn đến các mô hình nhanh hơn và biểu cảm hơn. Mã có thể được tìm thấy tại https://github.com/nutig/RayTracing .

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một kiến trúc MoE mới có thể đồng thời cải thiện độ chính xác và hiệu quả thông qua tải tính toán thay đổi.
Giải quyết các vấn đề cân bằng tải của MoE hiện tại.
Giảm thời gian đào tạo (giảm từ 10% đến 40%).
Trình bày các hướng nghiên cứu mới trong lĩnh vực MoE.
Limitations:
Chỉ có kết quả thử nghiệm ban đầu được trình bày, cần có thêm các thử nghiệm và xác minh.
Cần xác minh hiệu suất tổng quát trên nhiều tập dữ liệu và nhiệm vụ khác nhau.
Là một kiến trúc chuyên về dò tia, cần phải nghiên cứu thêm về khả năng ứng dụng của nó vào các lĩnh vực khác.
👍