Sign In

MARL Warehouse Robots

Created by
  • Haebom
Category
Empty

저자

Price Allman, Lian Thang, Dre Simmons, Salmon Riaz

개요

협동적인 창고 로봇을 위한 다중 에이전트 강화 학습(MARL) 알고리즘의 비교 연구를 제시합니다. Robotic Warehouse (RWARE) 환경 및 사용자 정의 Unity 3D 시뮬레이션에서 QMIX와 IPPO를 평가합니다. QMIX의 가치 분해는 독립 학습 접근 방식보다 성능이 우수하지만, 희소 보상 발견을 위해 광범위한 하이퍼파라미터 튜닝이 필요합니다. Unity ML-Agents에서 성공적인 배포를 시연하고, 1M 훈련 단계 후 일관된 패키지 배송을 달성했습니다. MARL은 소규모 배포(2-4 로봇)에 유망하지만, 상당한 규모 확장 문제가 남아 있습니다.

시사점, 한계점

QMIX의 가치 분해는 IPPO보다 우수한 성능을 보입니다.
QMIX는 희소 보상 환경에서 훈련하기 위해 장기간의 하이퍼파라미터 튜닝이 필요합니다.
Unity ML-Agents에서 성공적인 배포를 시연했습니다.
소규모 배포는 가능하지만, 대규모 환경에서는 확장의 어려움이 있습니다.
👍