Warehouse Spatial Question Answering with LLM Agent
Created by
Haebom
저자
Hsiang-Wei Huang, Jen-Hao Cheng, Kuang-Ming Chen, Cheng-Yen Yang, Bahaa Alattar, Yi-Ru Lin, Pyongkun Kim, Sangwon Kim, Kwangju Kim, Chung-I Huang, Jenq-Neng Hwang
개요
본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM)의 공간 이해 능력 향상을 위해 데이터 효율적인 접근 방식을 제시합니다. 복잡한 실내 창고 시나리오에서 어려운 공간 질문 응답 과제를 해결할 수 있는 강력하고 고급 공간 추론 능력을 갖춘 LLM 에이전트 시스템을 제안합니다. 이 시스템은 LLM 에이전트가 공간 추론을 수행하고 API 도구 상호 작용을 통해 복잡한 공간 질문에 답할 수 있도록 여러 도구를 통합합니다. 2025 AI City Challenge Physical AI Spatial Intelligence Warehouse 데이터셋에 대한 광범위한 평가는 제안된 시스템이 물체 검색, 계산 및 거리 추정과 같은 작업에서 높은 정확도와 효율성을 달성함을 보여줍니다. 코드는 https://github.com/hsiangwei0903/SpatialAgent 에서 확인할 수 있습니다.