본 논문은 물리적 세계에서 복잡한 작업을 수행할 때 인간이 실제 행동을 수행하기 전에 느린 사고(slow thinking)를 하는 것에 착안하여, 로봇 기초 모델에 이러한 사고 방식을 적용하는 Hume이라는 이중 시스템 Vision-Language-Action (VLA) 모델을 제안합니다. Hume은 가치(value)를 기반으로 하는 시스템 2 사고와 계단식(cascaded) 행동 잡음 제거를 통해 인간과 같은 사고 능력을 가진 VLA 모델을 구현합니다. 시스템 2는 새로운 가치 쿼리 헤드를 사용하여 예측된 행동의 상태-행동 가치를 추정하고, 여러 행동 후보를 반복적으로 샘플링하여 상태-행동 가치에 따라 하나를 선택합니다. 시스템 1은 시스템 2가 선택한 행동을 받아 실시간으로 유연한 행동을 예측하는 경량 반응 시각운동 정책입니다. 실험 결과, Hume은 여러 시뮬레이션 벤치마크와 실제 로봇 배포에서 기존 최첨단 VLA 모델을 능가하는 성능을 보여줍니다.
시사점, 한계점
•
시사점:
◦
인간의 느린 사고 과정을 로봇 제어에 적용하여 성능 향상을 달성.
◦
가치 기반의 시스템 2 사고와 계단식 행동 잡음 제거를 통한 효율적인 행동 계획 및 실행.
◦
시뮬레이션과 실제 로봇 환경 모두에서 기존 모델보다 우수한 성능 입증.
◦
복잡한 작업을 수행하는 데 있어서 인간과 유사한 사고 능력을 갖춘 로봇 제어 모델 개발 가능성 제시.