Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

LaDi-WM: Mô hình thế giới dựa trên khuếch tán tiềm ẩn cho thao tác dự đoán

Created by
  • Haebom

Tác giả

Yuhang Huang, Jiazhao Zhang, Shilong Zou, Xinwang Liu, Ruizhen Hu, Kai Xu

Phác thảo

Bài báo này tập trung vào thao tác dự đoán, tận dụng các trạng thái dự đoán để cải thiện hiệu suất chính sách của robot. Để giải quyết khó khăn của các mô hình thế giới hiện có trong việc tạo chính xác các trạng thái thị giác trong tương lai của tương tác robot-đối tượng, đặc biệt là ở cấp độ pixel, chúng tôi đề xuất LaDi-WM, một mô hình thế giới dự đoán không gian tiềm ẩn của các trạng thái trong tương lai bằng cách sử dụng mô hình khuếch tán. LaDi-WM kết hợp cả các đặc điểm hình học (dựa trên DINO) và ngữ nghĩa (dựa trên CLIP) bằng cách tận dụng các mô hình dựa trên thị giác (VFM) được đào tạo trước và các không gian tiềm ẩn được căn chỉnh. Chúng tôi chứng minh rằng việc dự đoán các thay đổi không gian tiềm ẩn tạo điều kiện thuận lợi cho việc học và khái quát hóa tốt hơn so với dự đoán hình ảnh trực tiếp ở cấp độ pixel. Dựa trên LaDi-WM, chúng tôi thiết kế một chính sách khuếch tán cải thiện hành vi đầu ra theo từng bước bằng cách kết hợp các trạng thái dự đoán, mang lại kết quả nhất quán và chính xác hơn. Các thí nghiệm mở rộng trên các điểm chuẩn tổng hợp và thực tế chứng minh rằng LaDi-WM cải thiện hiệu suất chính sách lên 27,9% trên điểm chuẩn LIBERO-LONG và 20% trong các tình huống thực tế, đạt được hiệu suất khái quát hóa ấn tượng ngay cả trong các thí nghiệm thực tế.

Takeaways, Limitations

Takeaways:
Một mô hình thế giới dựa trên dự đoán không gian tiềm ẩn sử dụng mô hình khuếch tán, LaDi-WM, được đề xuất và chứng minh là hiệu quả hơn và có hiệu suất tổng quát tốt hơn so với dự đoán từng pixel.
Chúng tôi chứng minh rằng độ chính xác và tính nhất quán của thao tác robot có thể được cải thiện bằng cách sử dụng chính sách khuếch tán sử dụng các trạng thái dự đoán.
Chúng tôi đã đạt được những cải tiến hiệu suất đáng kể trong môi trường LIBERO-LONG và môi trường thực tế.
Chúng tôi đã chứng minh được hiệu suất tổng quát tuyệt vời trong môi trường thực tế.
Limitations:
Hiệu suất của LaDi-WM có thể phụ thuộc vào hiệu suất của VFM được sử dụng.
Có khả năng nó không phản ánh hoàn toàn sự phức tạp và đa dạng của môi trường thực tế.
Do những hạn chế của chuẩn mực, có thể cần phải xác nhận thêm hiệu suất tổng quát.
Chi phí tính toán có thể cao (mặc dù không được nêu rõ, bản chất của mô hình khuếch tán cho thấy chi phí tính toán có thể cao).
👍