대규모 비표지 데이터로 사전 훈련된 기초 모델은 자연어 및 컴퓨터 비전 분야에 혁명을 일으켰지만, 로봇 공학 분야에서는 고비용의 로봇 주석 또는 물리적 세계를 효과적으로 모델링하는 표현의 부족으로 인해 유사한 성공을 거두지 못했습니다. 본 논문에서는 인간 비디오 데이터에서 학습된 저수준 4D 표현을 활용하여 더 나은 사전 훈련된 로봇 모델을 생성하는 자기회귀 로봇 모델인 ARM4R을 제시합니다. 특히, 시간에 따른 단안 깊이 추정을 통해 2D 표현을 3D 공간으로 상승시켜 비디오에서 얻은 3D 포인트 추적 표현을 활용하는 데 중점을 둡니다. 이러한 4D 표현은 선형 변환까지 점과 로봇 상태 표현 간 공유 기하 구조를 유지하여 인간 비디오 데이터에서 저수준 로봇 제어로 효율적인 전이 학습을 가능하게 합니다. 실험 결과 ARM4R이 인간 비디오 데이터에서 로봇 공학으로 효율적으로 전이될 수 있으며 다양한 로봇 환경 및 구성에서 작업 성능을 지속적으로 향상시킨다는 것을 보여줍니다.
시사점, 한계점
•
시사점: 인간 비디오 데이터를 활용한 효율적인 로봇 사전 훈련 방법 제시, 다양한 로봇 환경 및 구성에서의 성능 향상, 저수준 로봇 제어에 대한 전이 학습의 효율성 증명.
•
한계점: 단안 깊이 추정에 대한 의존성, 실제 로봇 환경의 복잡성에 대한 일반화 성능 검증 필요성, 다양한 작업에 대한 확장성 평가 필요성.