Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Khám phá biểu diễn không gian để nâng cao khả năng suy luận LLM trong điều hướng ngôn ngữ thị giác trên không

Created by
  • Haebom

Tác giả

Yunpeng Gao, Zhigang Wang, Pengfei Han, Linglin Jing, Dong Wang, Bin Zhao

Phác thảo

Bài báo này đề cập đến điều hướng ngôn ngữ thị giác trên không (VLN), một nhiệm vụ mới cho phép các phương tiện bay không người lái (UAV) điều hướng môi trường bên ngoài của chúng bằng các lệnh ngôn ngữ tự nhiên và tín hiệu thị giác. Để giải quyết thách thức hiện tại về các mối quan hệ không gian trong các cảnh trên không phức tạp, bài báo này đề xuất một khuôn khổ zero-shot không yêu cầu đào tạo và sử dụng mô hình ngôn ngữ quy mô lớn (LLM) làm tác nhân dự đoán hành động. Cụ thể, chúng tôi phát triển một Biểu diễn Đo lường Ngữ nghĩa-Địa hình (STMR) mới giúp tăng cường khả năng suy luận không gian của LLM. Điều này đạt được bằng cách trích xuất và chiếu các mặt nạ ngữ nghĩa liên quan đến các lệnh lên bản đồ từ trên xuống, bản đồ này cung cấp thông tin không gian và địa hình về các điểm mốc xung quanh và mở rộng bản đồ trong quá trình điều hướng. Tại mỗi bước, một bản đồ cục bộ lấy UAV làm trung tâm được trích xuất từ bản đồ từ trên xuống đã mở rộng và chuyển đổi thành biểu diễn ma trận chứa các phép đo khoảng cách, đóng vai trò là lời nhắc văn bản để LLM dự đoán các hành động cho một lệnh nhất định. Các thí nghiệm được tiến hành trong môi trường thực tế và mô phỏng đã chứng minh tính hiệu quả và độ tin cậy của phương pháp đề xuất, đạt tỷ lệ thành công tuyệt đối lần lượt là 26,8% và 5,8%, so với các phương pháp tiên tiến nhất cho các tác vụ điều hướng đơn giản và phức tạp. Bộ dữ liệu và mã sẽ sớm được phát hành.

Takeaways, Limitations

Takeaways:
Chúng tôi đã cải thiện hiệu quả của các hoạt động VLN trên không thông qua khuôn khổ không cần đào tạo.
Chúng tôi đã cải thiện hiệu suất của VLN trên không bằng cách tăng cường khả năng suy luận không gian của LLM thông qua STMR.
ĐạT được hiệu suất tiên tiến nhất trong môi trường thực tế và mô phỏng.
Bộ dữ liệu và mã sẽ được công khai để phục vụ cho mục đích nghiên cứu trong tương lai.
Limitations:
Bộ dữ liệu và mã vẫn chưa được công khai.
Cần phải xác nhận thêm hiệu suất tổng quát hóa trong môi trường thực tế.
Cần có thêm nghiên cứu về tính mạnh mẽ trong môi trường phức tạp và các tình huống bất ngờ.
👍