COMBO: Compositional World Models for Embodied Multi-Agent Cooperation
Created by
Haebom
Category
Empty
저자
Hongxin Zhang, Zeyuan Wang, Qiushi Lyu, Zheyuan Zhang, Sunli Chen, Tianmin Shu, Behzad Dariush, Kwonjoon Lee, Yilun Du, Chuang Gan
개요
본 논문은 분산된 에이전트들이 오직 자기중심적인 세계관만을 가지고 협력해야 하는 구현된 다중 에이전트 협력 문제를 연구합니다. 단일 에이전트 시나리오에서 세계 역학을 학습하는 것과는 달리, 이러한 설정에서 효과적으로 계획하기 위해서는 부분적인 자기중심 시각적 관찰만으로 여러 에이전트의 행동을 조건으로 세계 역학을 시뮬레이션해야 합니다. 부분 관측 가능성 문제를 해결하기 위해, 먼저 부분적인 자기중심 관찰을 바탕으로 전체 세계 상태를 추정하는 생성 모델을 훈련합니다. 이 세계 상태에 여러 행동 집합을 정확하게 시뮬레이션할 수 있도록, 여러 에이전트의 자연스럽게 합성 가능한 공동 행동을 인수분해하고 세계 상태를 조건으로 비디오를 합성적으로 생성하는 다중 에이전트 협력을 위한 합성 세계 모델을 학습하는 것을 제안합니다. 이 합성 세계 모델과 다른 에이전트의 행동을 추론하는 Vision Language Model을 활용하여 트리 검색 절차를 사용하여 이러한 모듈을 통합하고 온라인 협력 계획을 용이하게 합니다. 2~4개의 에이전트가 있는 세 가지 어려운 벤치마크에서 방법을 평가합니다. 결과는 제안된 합성 세계 모델이 효과적이며, 이 프레임워크를 통해 다양한 작업과 임의의 수의 에이전트에 걸쳐 서로 다른 에이전트와 효율적으로 협력할 수 있음을 보여주며, 제안된 방법의 미래를 보여줍니다. 추가 비디오는 https://embodied-agi.cs.umass.edu/combo/ 에서 확인할 수 있습니다.