Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Trả lời câu hỏi về không gian kho với chuyên viên LLM
Created by
Haebom
Tác giả
Hsiang-Wei Huang, Jen-Hao Cheng, Kuang-Ming Chen, Cheng-Yen Yang, Bahaa Alattar, Yi-Ru Lin, Pyongkun Kim, Sangwon Kim, Kwangju Kim, Chung-I Huang, Jenq-Neng Hwang
Phác thảo
Bài báo này trình bày một phương pháp tiếp cận hiệu quả về dữ liệu để nâng cao khả năng hiểu không gian của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) hiện có. Chúng tôi đề xuất một hệ thống tác tử LLM với khả năng suy luận không gian mạnh mẽ, tiên tiến, có khả năng giải quyết các nhiệm vụ trả lời câu hỏi không gian đầy thách thức trong môi trường kho hàng trong nhà phức tạp. Hệ thống này tích hợp nhiều công cụ, cho phép tác tử LLM thực hiện suy luận không gian và trả lời các câu hỏi không gian phức tạp thông qua tương tác với công cụ API. Đánh giá sâu rộng về bộ dữ liệu Kho hàng Trí tuệ Không gian Trí tuệ Nhân tạo Vật lý (Physical AI Spatial Intelligence Warehouse) của Thử thách Thành phố AI 2025 cho thấy hệ thống được đề xuất đạt được độ chính xác và hiệu quả cao trong các tác vụ như tìm kiếm đối tượng, đếm và ước tính khoảng cách. Mã nguồn có sẵn tại https://github.com/hsiangwei0903/SpatialAgent .