Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

FunGraph: Đồ thị cảnh 3D có chức năng nhận biết cho tương tác cảnh được nhắc nhở bằng ngôn ngữ

Created by
  • Haebom

Tác giả

Dennis Rotondi, Fabio Scaparro, Hermann Blum, Kai O. Arras

Phác thảo

Bài báo này nhằm mục đích phát triển một biểu diễn đồ thị cảnh 3D xác định vị trí và cách sử dụng các yếu tố tương tác chức năng, cho phép robot tương tác trực tiếp với môi trường của chúng. Thay vì dựa vào độ phân giải cấp đối tượng truyền thống, chúng tôi tập trung vào việc phát hiện và lưu trữ các đối tượng ở độ phân giải tốt hơn, tập trung vào ý nghĩa chức năng của chúng. Để giải quyết tình trạng khan hiếm dữ liệu và những thách thức trong việc nắm bắt các đặc điểm chi tiết của đối tượng bằng cảm biến robot, chúng tôi tận dụng các nguồn lực 3D hiện có để tạo dữ liệu 2D và huấn luyện các bộ phát hiện, cải tiến quy trình tạo đồ thị cảnh 3D tiêu chuẩn. Kết quả thử nghiệm chứng minh rằng phương pháp của chúng tôi đạt được hiệu suất phân đoạn phần tử chức năng tương đương với các mô hình 3D tiên tiến và cho phép liên kết ngữ nghĩa chức năng theo tác vụ với độ chính xác cao hơn so với các giải pháp hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một biểu đồ cảnh 3D mới xác định vị trí và cách sử dụng các yếu tố tương tác chức năng.
Cải thiện tương tác giữa robot và môi trường thông qua khả năng phát hiện và lưu trữ đối tượng có độ phân giải cao.
Cải thiện hiệu suất của quy trình tạo đồ thị cảnh 3D thông qua tăng cường dữ liệu 2D.
Phân đoạn thành phần chức năng và liên kết ngữ nghĩa chức năng theo nhiệm vụ để đạt được hiệu suất tiên tiến.
Limitations:
Khó khăn trong việc nắm bắt các đặc điểm chi tiết của vật thể bằng cảm biến robot.
Thiếu dữ liệu ngoài khả năng phát hiện ở cấp độ cá thể.
Sử dụng một số lượng hạn chế các nguồn tài nguyên 3D.
👍