인간형 로봇이 복잡한 개방형 환경에서 추론, 계획, 행동을 하도록 하는 것은 여전히 어려운 과제이다. 본 논문에서는 인간형 로봇의 제어 토큰을 조건으로 미래의 자기중심적 비디오를 예측하는 경량의 오픈소스 모델인 Humanoid World Models (HWM)을 소개한다. 100시간의 인간형 로봇 시연 데이터를 사용하여 Masked Transformers와 Flow-Matching 두 가지 유형의 생성 모델을 훈련시켰으며, 다양한 어텐션 메커니즘과 파라미터 공유 전략을 가진 아키텍처 변형들을 탐구하였다. 파라미터 공유 기법을 통해 모델 크기를 33-53%까지 줄였으며, 성능이나 시각적 충실도에는 최소한의 영향만 미쳤다. HWM은 1~2개의 GPU와 같은 실용적인 학술 및 소규모 연구실 환경에서 훈련 및 배포될 수 있도록 설계되었다.