Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy

Created by
  • Haebom

저자

Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie

개요

Optimus-2는 다양한 오픈월드 작업에서 인간 행동 패턴을 모방할 수 있는 에이전트를 구축하기 위한 연구의 결과물입니다. 고차원 계획을 위한 다중 모달 대규모 언어 모델(MLLM)과 저차원 제어를 위한 목표-관찰-행동 조건 정책(GOAP)을 통합하여 다양한 작업에 걸쳐 행동 패턴을 효과적으로 학습할 수 있도록 합니다. GOAP는 각 시간 단계에서 관찰과 행동 간의 인과 관계를 모델링하고, 이력 관찰-행동 시퀀스와 동적으로 상호 작용하여 고정 길이 행동 토큰으로 통합하는 행동 안내 행동 인코더와 행동 토큰을 열린 끝 언어 지침과 정렬하여 자기 회귀적으로 행동을 예측하는 MLLM으로 구성됩니다. 또한, 8가지 원자적 작업에 걸쳐 25,000개의 비디오를 포함하고 약 3000만 개의 목표-관찰-행동 쌍을 제공하는 고품질 Minecraft 목표-관찰-행동(MGOA) 데이터 세트를 도입했습니다. 자동화된 구성 방법과 MGOA 데이터 세트는 Minecraft 에이전트를 훈련하기 위한 커뮤니티의 노력에 기여할 수 있습니다. 광범위한 실험 결과는 Optimus-2가 Minecraft에서 원자적 작업, 장기 작업 및 개방형 지침 작업에서 우수한 성능을 보임을 보여줍니다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델과 목표-관찰-행동 조건 정책을 결합하여 복잡한 오픈월드 작업에서 인간과 유사한 행동을 보이는 에이전트를 구축하는 새로운 방법 제시.
고품질 Minecraft 목표-관찰-행동(MGOA) 데이터셋 공개를 통한 Minecraft 에이전트 연구 발전에 기여.
원자적 작업, 장기 작업, 개방형 지침 작업에서 우수한 성능을 입증.
한계점:
MGOA 데이터셋의 규모 및 다양성에 대한 추가적인 개선 여지 존재.
실제 세계의 복잡성을 완전히 반영하지 못할 가능성.
에이전트의 일반화 능력에 대한 추가적인 연구 필요.
👍