GR-3는 대규모 시각-언어-행동(VLA) 모델로, 새로운 물체, 환경, 추상적 개념을 포함하는 지시사항에 대한 일반화 능력이 뛰어난 일반화된 로봇 정책 구축을 위한 최근 진전을 보여줍니다. 웹 규모의 시각-언어 데이터를 이용한 공동 학습, VR 기기를 통해 수집된 인간 궤적 데이터를 이용한 효율적인 미세 조정, 로봇 궤적 데이터를 이용한 효과적인 모방 학습을 포함하는 다면적인 훈련 방식을 통해 이러한 성능을 달성합니다. 또한, GR-3과 통합하여 광범위한 작업을 수행할 수 있는 다재다능한 양손 조작 이동 로봇인 ByteMini를 소개합니다. 다양한 어려운 작업에서 기존 최고 성능 기준 방법인 $\pi_0$을 능가하는 실제 세계 실험 결과를 보여줍니다. GR-3은 일상생활에서 인간을 돕는 일반화된 로봇을 구축하는 방향으로 나아가는 한 단계가 될 것으로 기대됩니다.