MARL Warehouse Robots

Created by

Haebom

저자

Price Allman, Lian Thang, Dre Simmons, Salmon Riaz

개요

협동적인 창고 로봇을 위한 다중 에이전트 강화 학습(MARL) 알고리즘의 비교 연구를 제시합니다. Robotic Warehouse (RWARE) 환경 및 사용자 정의 Unity 3D 시뮬레이션에서 QMIX와 IPPO를 평가합니다. QMIX의 가치 분해는 독립 학습 접근 방식보다 성능이 우수하지만, 희소 보상 발견을 위해 광범위한 하이퍼파라미터 튜닝이 필요합니다. Unity ML-Agents에서 성공적인 배포를 시연하고, 1M 훈련 단계 후 일관된 패키지 배송을 달성했습니다. MARL은 소규모 배포(2-4 로봇)에 유망하지만, 상당한 규모 확장 문제가 남아 있습니다.

시사점, 한계점

•

QMIX의 가치 분해는 IPPO보다 우수한 성능을 보입니다.

•

QMIX는 희소 보상 환경에서 훈련하기 위해 장기간의 하이퍼파라미터 튜닝이 필요합니다.

•

Unity ML-Agents에서 성공적인 배포를 시연했습니다.

•

소규모 배포는 가능하지만, 대규모 환경에서는 확장의 어려움이 있습니다.

PDF 보기

Made with Slashpage