Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

Created by
  • Haebom

저자

NVIDIA, :, Johan Bjorck, Fernando Castaneda, Nikita Cherniadev, Xingye Da, Runyu Ding, Linxi "Jim" Fan, Yu Fang, Dieter Fox, Fengyuan Hu, Spencer Huang, Joel Jang, Zhenyu Jiang, Jan Kautz, Kaushil Kundalia, Lawrence Lao, Zhiqi Li, Zongyu Lin, Kevin Lin, Guilin Liu, Edith Llontop, Loic Magne, Ajay Mandlekar, Avnish Narayan, Soroush Nasiriany, Scott Reed, You Liang Tan, Guanzhi Wang, Zu Wang, Jing Wang, Qi Wang, Jiannan Xiang, Yuqi Xie, Yinzhen Xu, Zhenjia Xu, Seonghyeon Ye, Zhiding Yu, Ao Zhang, Hao Zhang, Yizhou Zhao, Ruijie Zheng, Yuke Zhu

개요

본 논문은 인간형 로봇을 위한 개방형 기초 모델인 GR00T N1을 소개한다. GR00T N1은 시각-언어-행동(VLA) 모델로, 시각 및 언어 명령을 통해 환경을 해석하는 시각-언어 모듈(시스템 2)과 유체적 운동 동작을 실시간으로 생성하는 확산 변환기 모듈(시스템 1)의 이중 시스템 아키텍처를 가지고 있다. 두 모듈은 긴밀하게 결합되어 있으며, 실제 로봇 궤적, 인간 비디오 및 합성 데이터 세트의 이종 혼합으로 end-to-end 학습된다. 실험 결과, GR00T N1은 여러 로봇 구현에 걸쳐 표준 시뮬레이션 벤치마크에서 최첨단 모방 학습 기준 모델을 능가하며, Fourier GR-1 인간형 로봇에 배포하여 언어 조건부 양손 조작 작업에서 높은 데이터 효율성으로 우수한 성능을 달성함을 보여준다.

시사점, 한계점

시사점:
인간형 로봇을 위한 개방형 기초 모델 GR00T N1을 제시하여 일반 목적 로봇 개발에 기여.
시각-언어-행동(VLA) 모델의 이중 시스템 아키텍처를 통해 높은 성능과 데이터 효율성 달성.
다양한 데이터 소스를 활용한 훈련을 통해 실세계 변동성에 대한 강건성 확보.
실제 로봇 플랫폼에서의 성공적인 구현을 통해 실용성 검증.
한계점:
현재는 특정 인간형 로봇(Fourier GR-1)에 대한 실험 결과만 제시. 다른 로봇 플랫폼으로의 일반화 가능성에 대한 추가 연구 필요.
합성 데이터의 사용 비중에 대한 명확한 설명 부족. 실제 데이터와의 균형 및 합성 데이터의 질에 대한 추가적인 분석 필요.
장기간의 안정적인 동작 및 예측 불가능한 상황에 대한 대처 능력에 대한 추가적인 평가 필요.
모델의 복잡성과 계산 비용에 대한 분석 및 개선 여지 존재.
👍