Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

Created by
  • Haebom
Category
Empty

저자

Zhengyi Luo, Ye Yuan, Tingwu Wang, Chenran Li, Sirui Chen, Fernando Castaneda, Zi-Ang Cao, Jiefeng Li, David Minor, Qingwei Ben, Xingye Da, Runyu Ding, Cyrus Hogg, Lina Song, Edy Lim, Eugene Jeong, Tairan He, Haoru Xue, Wenli Xiao, Zi Wang, Simon Yuen, Jan Kautz, Yan Chang, Umar Iqbal, Linxi "Jim" Fan, Yuke Zhu

개요

대규모 GPU 클러스터에서 훈련된 거대 모델의 부상에도 불구하고, 휴머노이드 제어 분야에서는 이러한 규모의 발전이 이루어지지 않았습니다. 본 연구에서는 모델 용량, 데이터, 컴퓨팅을 확장하여 자연스럽고 강력한 전신 움직임을 생성하는 일반적인 휴머노이드 컨트롤러를 개발했습니다. 특히, 모션 캡처 데이터로부터 얻은 밀집된 감독을 활용하여 수동적인 보상 엔지니어링 없이 인간의 움직임 사전 지식을 습득하기 위해 모션 추적을 휴머노이드 제어를 위한 확장 가능한 작업으로 제안했습니다. 네트워크 크기(120만~4200만 매개변수), 데이터 세트 볼륨(1억 프레임 이상, 700시간의 고품질 모션 데이터), 컴퓨팅(9,000 GPU 시간)의 세 가지 축을 따라 확장하여 모션 추적을 위한 파운데이션 모델을 구축했습니다.

시사점, 한계점

시사점:
모델 규모, 데이터 양, 컴퓨팅 자원의 증가가 휴머노이드 제어 성능 향상에 기여함을 입증.
모션 추적을 통해 자연스럽고 견고한 전신 움직임 생성 가능.
실시간 보편적인 운동학적 플래너를 통해 모션 추적과 다운스트림 작업 실행을 연결하여 자연스럽고 상호 작용적인 제어 가능.
VR 텔레오퍼레이션 장치, 인간 비디오, 비전-언어-액션(VLA) 모델 등 다양한 모션 입력 인터페이스를 지원하는 통합 토큰 공간 제공.
확장된 모션 추적은 컴퓨팅 및 데이터 다양성이 증가함에 따라 꾸준한 성능 향상을 보이며, 학습된 표현은 보이지 않는 동작으로 일반화됨.
한계점:
논문에서 구체적인 한계점이 명시되지 않음.
👍