Bài báo này nhấn mạnh rằng mặc dù học bắt chước cho phép robot hành xử thành thạo, nhưng nó lại gặp khó khăn với hiệu suất mẫu thấp và khả năng khái quát hóa hạn chế, khiến việc giải quyết các nhiệm vụ đa đối tượng dài hạn trở nên khó khăn. Các phương pháp hiện có đòi hỏi nhiều lần trình diễn để giải quyết các biến thể nhiệm vụ có thể xảy ra, khiến chúng tốn kém và không thực tế cho các ứng dụng trong thế giới thực. Nghiên cứu này giới thiệu các khung khả năng định hướng, một biểu diễn có cấu trúc của không gian trạng thái và hành động, để cải thiện khả năng khái quát hóa không gian và phạm trù, đồng thời huấn luyện các chính sách hiệu quả chỉ với 10 lần trình diễn. Quan trọng hơn, sự trừu tượng hóa này cho phép khái quát hóa thành phần của các chính sách con được huấn luyện độc lập để giải quyết các nhiệm vụ đa đối tượng dài hạn. Để tạo điều kiện thuận lợi cho việc chuyển đổi mượt mà giữa các chính sách con, chúng tôi giới thiệu khái niệm dự đoán tự tiến triển, được rút ra trực tiếp từ thời lượng trình diễn huấn luyện. Các thí nghiệm trên ba nhiệm vụ thực tế liên quan đến tương tác đa bước, đa đối tượng chứng minh rằng các chính sách này khái quát hóa mạnh mẽ đối với các hình dạng vật thể, hình dạng hình học và sắp xếp không gian chưa được nhìn thấy, mặc dù lượng dữ liệu ít, và đạt tỷ lệ thành công cao mà không cần dựa vào dữ liệu huấn luyện mở rộng.