[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cải thiện Mô hình Thế giới Biến áp để RL Hiệu quả Dữ liệu

Created by
  • Haebom

Tác giả

Antoine Dedieu, Joseph Ortiz, Xinghua Lou, Carter Wendelken, Wolfgang Lehrach, J Swaroop Guntupalli, Miguel Lazaro-Gredilla, Kevin Patrick Murphy

Phác thảo

Bài báo này trình bày ba cải tiến cho mô hình học tăng cường dựa trên mô hình tiêu chuẩn dựa trên Transformer. Thứ nhất, "Dyna with warmup" huấn luyện chính sách bằng cả dữ liệu thực và dữ liệu tưởng tượng, nhưng chỉ bắt đầu sử dụng dữ liệu tưởng tượng sau khi mô hình thế giới đã được huấn luyện đầy đủ. Thứ hai, "bộ phân tích mã thông báo lân cận gần nhất" cho các bản vá hình ảnh cải thiện phương pháp phân tích mã thông báo trước đây được yêu cầu khi sử dụng mô hình thế giới Transformer (TWM) bằng cách đảm bảo các từ mã được cố định sau khi tạo, do đó cung cấp một mục tiêu nhất quán cho việc học TWM. Thứ ba, "áp dụng giáo viên khối" cho phép TWM cùng suy ra các mã thông báo tương lai cho bước thời gian tiếp theo thay vì tạo chúng tuần tự. Phương pháp được đề xuất chứng minh những cải tiến hiệu suất đáng kể so với các phương pháp trước đây trong nhiều môi trường khác nhau. Cụ thể, phương pháp này đạt được tỷ lệ phần thưởng 69,66% sau 1 triệu bước môi trường trên chuẩn Craftax-classic, vượt trội đáng kể so với DreamerV3 (53,2%) và lần đầu tiên vượt qua mức độ con người (65,0%). Chúng tôi cũng chứng minh tính tổng quát của phương pháp này thông qua các kết quả sơ bộ trên Craftax-full, MinAtar và ba trò chơi hai người chơi khác.

Takeaways, Limitations

Takeaways: Chúng tôi trình bày ba kỹ thuật mới (Dyna với khởi động, phân tích mã thông báo lân cận gần nhất, ép buộc giáo viên khối) giúp cải thiện đáng kể hiệu suất học tăng cường dựa trên Transformer và đạt được kết quả vượt trội so với hiệu suất của con người trên Craftax-classic. Kết quả thử nghiệm trong nhiều môi trường khác nhau chứng minh tính tổng quát của phương pháp được đề xuất.
Limitations: Kết quả cho các trò chơi Craftax-full, MinAtar và 2 người chơi chỉ là sơ bộ và cần được phân tích sâu hơn cũng như thử nghiệm bổ sung. Cần nghiên cứu thêm để xác định liệu phương pháp được đề xuất có hiệu quả như nhau trong mọi môi trường hay không.
👍