본 논문은 물리적 세계에서 복잡한 작업을 수행할 때 인간이 실제 행동을 하기 전에 느린 사고(slow thinking)를 하는 방식에 착안하여, 로봇 기반 모델에 인간과 유사한 사고 능력을 부여하는 것을 목표로 합니다. 이를 위해, 가치(value)에 기반한 시스템 2 사고와 계단식 행동 잡음 제거를 갖춘 이중 시스템 비전-언어-행동(VLA) 모델인 Hume을 제안합니다. Hume의 시스템 2는 새로운 가치 쿼리 헤드를 사용하여 예측된 행동의 상태-행동 가치를 추정하고, 여러 행동 후보를 반복적으로 샘플링하여 상태-행동 가치에 따라 하나를 선택하는 가치 유도 사고를 구현합니다. 시스템 1은 시스템 2가 선택한 행동을 받아 손재주 있는 로봇 제어를 위해 계단식 행동 잡음 제거를 수행하는 경량 반응 시각 운동 정책입니다. 배포 시, 시스템 2는 낮은 주파수로 가치 유도 사고를 수행하고, 시스템 1은 비동기적으로 시스템 2가 선택한 행동 후보를 받아 실시간으로 유동적인 행동을 예측합니다. 실험 결과, Hume은 여러 시뮬레이션 벤치마크와 실제 로봇 배포에서 기존 최첨단 VLA 모델보다 우수한 성능을 보였습니다.