Optimus-2는 다양한 오픈월드 작업에서 인간 행동 패턴을 모방할 수 있는 에이전트를 구축하기 위한 연구의 결과물입니다. 고차원 계획을 위한 다중 모달 대규모 언어 모델(MLLM)과 저차원 제어를 위한 목표-관찰-행동 조건 정책(GOAP)을 통합하여 다양한 작업에 걸쳐 행동 패턴을 효과적으로 학습할 수 있도록 합니다. GOAP는 각 시간 단계에서 관찰과 행동 간의 인과 관계를 모델링하고, 이력 관찰-행동 시퀀스와 동적으로 상호 작용하여 고정 길이 행동 토큰으로 통합하는 행동 안내 행동 인코더와 행동 토큰을 열린 끝 언어 지침과 정렬하여 자기 회귀적으로 행동을 예측하는 MLLM으로 구성됩니다. 또한, 8가지 원자적 작업에 걸쳐 25,000개의 비디오를 포함하고 약 3000만 개의 목표-관찰-행동 쌍을 제공하는 고품질 Minecraft 목표-관찰-행동(MGOA) 데이터 세트를 도입했습니다. 자동화된 구성 방법과 MGOA 데이터 세트는 Minecraft 에이전트를 훈련하기 위한 커뮤니티의 노력에 기여할 수 있습니다. 광범위한 실험 결과는 Optimus-2가 Minecraft에서 원자적 작업, 장기 작업 및 개방형 지침 작업에서 우수한 성능을 보임을 보여줍니다.