Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

Created by
  • Haebom
Category
Empty

저자

NVIDIA, Johan Bjorck, Fernando Castaneda, Nikita Cherniadev, Xingye Da, Runyu Ding, Linxi "Jim" Fan, Yu Fang, Dieter Fox, Fengyuan Hu, Spencer Huang, Joel Jang, Zhenyu Jiang, Jan Kautz, Kaushil Kundalia, Lawrence Lao, Zhiqi Li, Zongyu Lin, Kevin Lin, Guilin Liu, Edith Llontop, Loic Magne, Ajay Mandlekar, Avnish Narayan, Soroush Nasiriany, Scott Reed, You Liang Tan, Guanzhi Wang, Zu Wang, Jing Wang, Qi Wang, Jiannan Xiang, Yuqi Xie, Yinzhen Xu, Zhenjia Xu, Seonghyeon Ye, Zhiding Yu, Ao Zhang, Hao Zhang, Yizhou Zhao, Ruijie Zheng, Yuke Zhu

개요

본 논문은 인간형 로봇을 위한 개방형 기초 모델인 GR00T N1을 소개합니다. GR00T N1은 시각-언어-행동(VLA) 모델로, 시각 및 언어 명령어를 통해 환경을 해석하는 시각-언어 모듈(시스템 2)과 유체적인 운동 동작을 실시간으로 생성하는 확산 변환기 모듈(시스템 1)의 이중 시스템 아키텍처를 가지고 있습니다. 두 모듈은 긴밀하게 결합되어 있으며, 실제 로봇 궤적, 인간 비디오 및 합성 데이터셋의 이종 혼합 데이터로 종단 간 학습됩니다. 실험 결과, GR00T N1은 여러 로봇 구현에서 표준 시뮬레이션 벤치마크에서 최첨단 모방 학습 기준 모델보다 우수한 성능을 보이며, Fourier GR-1 인간형 로봇에 배포하여 언어 조건부 양손 조작 작업에서 높은 데이터 효율성으로 강력한 성능을 달성했습니다.

시사점, 한계점

시사점:
인간형 로봇을 위한 개방형 기초 모델 GR00T N1 제시: 시각, 언어, 행동을 통합한 VLA 모델로 다양한 작업 수행 가능성을 보여줌.
이중 시스템 아키텍처의 효과성 증명: 시각-언어 해석과 운동 제어의 효율적인 결합.
높은 데이터 효율성을 통한 실제 로봇 적용 성공: 실제 로봇 플랫폼에서의 강력한 성능 검증.
다양한 데이터 소스를 활용한 범용성 확보: 실제 로봇 데이터, 인간 비디오, 합성 데이터를 활용한 강건한 모델 학습.
한계점:
아직 실제 세계의 복잡한 상황에 대한 일반화 능력은 제한적일 수 있음.
모델의 안전성 및 신뢰성에 대한 추가적인 연구 필요.
특정 로봇 플랫폼에 대한 의존성 및 다른 로봇 플랫폼으로의 이전 가능성에 대한 추가적인 연구 필요.
사용된 데이터셋의 편향성이 모델 성능에 미치는 영향에 대한 분석 필요.
👍