Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners

Created by
  • Haebom

저자

Jiabao Ji, Yongchao Chen, Yang Zhang, Ramana Rao Kompella, Chuchu Fan, Gaowen Liu, Shiyu Chang

개요

본 논문은 대규모 언어 모델(LLM)을 로봇 제어에 적용할 때 발생하는 물리적 제약 위반 문제를 해결하기 위해 강화 학습과 검증 가능한 보상을 통합한 새로운 프레임워크(RLVR)를 제안합니다. RLVR은 물리적 제약을 준수하는 유효한 행동 계획에만 보상을 제공하여 LLM이 제약을 고려하는 추론을 하도록 유도합니다. 소규모 LLM인 Qwen2.5-3B-Instruct와 Qwen3-4B에 본 방법을 적용하여 BoxNet 및 새롭게 개발된 BoxNet3D 환경에서 실험을 진행한 결과, 제약을 고려한 소규모 LLM이 제약을 고려하지 않은 대규모 모델보다 성능이 훨씬 우수함을 보였습니다. 이는 복잡하고 물리적 제약이 있는 환경에서 확장 가능하고 효율적인 다중 로봇 제어를 위해 소규모 LLM에 물리적 제약을 적용하는 것이 효과적임을 보여줍니다.

시사점, 한계점

시사점:
소규모 LLM에 물리적 제약을 부여하는 것이 대규모 LLM보다 더 효율적이고 확장 가능한 다중 로봇 제어를 가능하게 함을 보여줍니다.
강화 학습과 검증 가능한 보상을 결합한 RLVR 프레임워크가 LLM의 물리적 제약 인식 능력 향상에 효과적임을 입증합니다.
제약을 고려한 소규모 LLM이 대규모 모델보다 더 나은 성능을 보임으로써, 모델 크기보다는 제약 인식 능력이 중요함을 시사합니다.
한계점:
실험은 BoxNet 및 BoxNet3D라는 상대적으로 작은 규모의 환경에서 수행되었으므로, 더욱 복잡하고 다양한 환경에서의 일반화 성능은 추가 연구가 필요합니다.
사용된 소규모 LLM의 성능이 특정 작업에 국한될 가능성이 있으며, 다양한 작업에 대한 일반화 성능 평가가 필요합니다.
RLVR 프레임워크의 계산 비용 및 학습 시간에 대한 분석이 부족합니다.
👍