Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Humanoid World Models: Open World Foundation Models for Humanoid Robotics

Created by
  • Haebom

저자

Muhammad Qasim Ali, Aditya Sridhar, Shahbuland Matiana, Alex Wong, Mohammad Al-Sharman

개요

인간 중심 환경에서 복잡한 작업을 수행할 수 있는 휴머노이드 로봇은 행동 결과를 추론하기 위한 강력한 예측 모델이 필요합니다. 본 논문에서는 행동을 조건으로 미래의 자기중심 관찰을 예측하는 경량의 오픈 소스 비디오 기반 모델인 휴머노이드 월드 모델(HWM)을 소개합니다. 100시간의 휴머노이드 시범 데이터를 사용하여 마스크 트랜스포머와 플로우 매칭 두 가지 유형의 생성 모델을 학습시켰습니다. 또한, 다양한 어텐션 메커니즘과 매개변수 공유 전략을 사용하는 아키텍처 변형을 탐색했습니다. 매개변수 공유 기법은 성능이나 시각적 충실도에 미치는 영향을 최소화하면서 모델 크기를 3353% 줄였습니다. HWM은 12개의 GPU와 같은 실용적인 학술 및 소규모 실험실 환경에서 학습 및 배포하도록 설계되었습니다.

시사점, 한계점

시사점:
경량의 오픈 소스 비디오 기반 휴머노이드 월드 모델(HWM)을 제시하여 휴머노이드 로봇의 행동 예측 성능 향상에 기여.
마스크 트랜스포머와 플로우 매칭 두 가지 생성 모델을 활용하여 다양한 상황에 대한 적용 가능성 확보.
매개변수 공유 기법을 통해 모델 크기 감소 및 실용적인 학습 및 배포 환경 제공.
한계점:
100시간의 데이터를 사용하여 학습하였으므로, 더 많은 데이터를 사용한 학습을 통해 성능 향상 가능성 존재.
아키텍처 변형 및 매개변수 공유 전략의 최적화 여지 존재.
실제 환경에서의 로봇 제어 성능 평가가 부족.
👍