Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Trả lời câu hỏi về không gian kho với chuyên viên LLM

Created by
  • Haebom

Tác giả

Hsiang-Wei Huang, Jen-Hao Cheng, Kuang-Ming Chen, Cheng-Yen Yang, Bahaa Alattar, Yi-Ru Lin, Pyongkun Kim, Sangwon Kim, Kwangju Kim, Chung-I Huang, Jenq-Neng Hwang

Phác thảo

Bài báo này trình bày một phương pháp tiếp cận hiệu quả về dữ liệu để nâng cao khả năng hiểu không gian của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) hiện có. Chúng tôi đề xuất một hệ thống tác tử LLM với khả năng suy luận không gian mạnh mẽ, tiên tiến, có khả năng giải quyết các nhiệm vụ trả lời câu hỏi không gian đầy thách thức trong môi trường kho hàng trong nhà phức tạp. Hệ thống này tích hợp nhiều công cụ, cho phép tác tử LLM thực hiện suy luận không gian và trả lời các câu hỏi không gian phức tạp thông qua tương tác với công cụ API. Đánh giá sâu rộng về bộ dữ liệu Kho hàng Trí tuệ Không gian Trí tuệ Nhân tạo Vật lý (Physical AI Spatial Intelligence Warehouse) của Thử thách Thành phố AI 2025 cho thấy hệ thống được đề xuất đạt được độ chính xác và hiệu quả cao trong các tác vụ như tìm kiếm đối tượng, đếm và ước tính khoảng cách. Mã nguồn có sẵn tại https://github.com/hsiangwei0903/SpatialAgent .

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để nâng cao hiểu biết về không gian của MLLM theo cách hiệu quả về dữ liệu.
ĐạT được độ chính xác và hiệu quả cao cho các nhiệm vụ trả lời câu hỏi về không gian trong môi trường trong nhà phức tạp.
Tích hợp khả năng suy luận không gian và tương tác với nhiều công cụ API khác nhau thông qua hệ thống tác nhân LLM.
Xác minh hiệu suất thông qua kết quả thử nghiệm sử dụng bộ dữ liệu AI City Challenge 2025.
Limitations:
Cần đánh giá thêm về hiệu suất tổng quát của hệ thống đề xuất (có thể là do thiếu thử nghiệm trên các môi trường hoặc tập dữ liệu khác).
Phân tích sự phụ thuộc là cần thiết đối với các đặc điểm của công cụ API và tập dữ liệu được sử dụng.
Cần nghiên cứu thêm về tính phức tạp và khả năng mở rộng của hệ thống.
Cần có sự xác nhận bổ sung để ứng dụng vào môi trường thương mại thực tế.
👍