Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners
Created by
Haebom
저자
Jiabao Ji, Yongchao Chen, Yang Zhang, Ramana Rao Kompella, Chuchu Fan, Gaowen Liu, Shiyu Chang
개요
본 논문은 대규모 언어 모델(LLM)을 로봇 제어에 적용할 때 발생하는 물리적 제약 위반 문제를 해결하기 위해 강화 학습과 검증 가능한 보상을 통합한 새로운 프레임워크(RLVR)를 제안합니다. RLVR은 물리적 제약을 준수하는 유효한 행동 계획에만 보상을 제공하여 LLM이 제약을 고려하는 추론을 하도록 유도합니다. 소규모 LLM인 Qwen2.5-3B-Instruct와 Qwen3-4B에 본 방법을 적용하여 BoxNet 및 새롭게 개발된 BoxNet3D 환경에서 실험을 진행한 결과, 제약을 고려한 소규모 LLM이 제약을 고려하지 않은 대규모 모델보다 성능이 훨씬 우수함을 보였습니다. 이는 복잡하고 물리적 제약이 있는 환경에서 확장 가능하고 효율적인 다중 로봇 제어를 위해 소규모 LLM에 물리적 제약을 적용하는 것이 효과적임을 보여줍니다.
시사점, 한계점
•
시사점:
◦
소규모 LLM에 물리적 제약을 부여하는 것이 대규모 LLM보다 더 효율적이고 확장 가능한 다중 로봇 제어를 가능하게 함을 보여줍니다.
◦
강화 학습과 검증 가능한 보상을 결합한 RLVR 프레임워크가 LLM의 물리적 제약 인식 능력 향상에 효과적임을 입증합니다.
◦
제약을 고려한 소규모 LLM이 대규모 모델보다 더 나은 성능을 보임으로써, 모델 크기보다는 제약 인식 능력이 중요함을 시사합니다.
•
한계점:
◦
실험은 BoxNet 및 BoxNet3D라는 상대적으로 작은 규모의 환경에서 수행되었으므로, 더욱 복잡하고 다양한 환경에서의 일반화 성능은 추가 연구가 필요합니다.
◦
사용된 소규모 LLM의 성능이 특정 작업에 국한될 가능성이 있으며, 다양한 작업에 대한 일반화 성능 평가가 필요합니다.