Bài báo này trình bày ba cải tiến cho mô hình học tăng cường dựa trên mô hình tiêu chuẩn dựa trên Transformer. Thứ nhất, "Dyna with warmup" huấn luyện chính sách bằng cả dữ liệu thực và dữ liệu tưởng tượng, nhưng chỉ bắt đầu sử dụng dữ liệu tưởng tượng sau khi mô hình thế giới đã được huấn luyện đầy đủ. Thứ hai, "bộ phân tích mã thông báo lân cận gần nhất" cho các bản vá hình ảnh cải thiện phương pháp phân tích mã thông báo trước đây được yêu cầu khi sử dụng mô hình thế giới Transformer (TWM) bằng cách đảm bảo các từ mã được cố định sau khi tạo, do đó cung cấp một mục tiêu nhất quán cho việc học TWM. Thứ ba, "áp dụng giáo viên khối" cho phép TWM cùng suy ra các mã thông báo tương lai cho bước thời gian tiếp theo thay vì tạo chúng tuần tự. Phương pháp được đề xuất chứng minh những cải tiến hiệu suất đáng kể so với các phương pháp trước đây trong nhiều môi trường khác nhau. Cụ thể, phương pháp này đạt được tỷ lệ phần thưởng 69,66% sau 1 triệu bước môi trường trên chuẩn Craftax-classic, vượt trội đáng kể so với DreamerV3 (53,2%) và lần đầu tiên vượt qua mức độ con người (65,0%). Chúng tôi cũng chứng minh tính tổng quát của phương pháp này thông qua các kết quả sơ bộ trên Craftax-full, MinAtar và ba trò chơi hai người chơi khác.