협동적인 창고 로봇을 위한 다중 에이전트 강화 학습(MARL) 알고리즘의 비교 연구를 제시합니다. Robotic Warehouse (RWARE) 환경 및 사용자 정의 Unity 3D 시뮬레이션에서 QMIX와 IPPO를 평가합니다. QMIX의 가치 분해는 독립 학습 접근 방식보다 성능이 우수하지만, 희소 보상 발견을 위해 광범위한 하이퍼파라미터 튜닝이 필요합니다. Unity ML-Agents에서 성공적인 배포를 시연하고, 1M 훈련 단계 후 일관된 패키지 배송을 달성했습니다. MARL은 소규모 배포(2-4 로봇)에 유망하지만, 상당한 규모 확장 문제가 남아 있습니다.