Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

Created by
  • Haebom

저자

Haoming Song, Delin Qu, Yuanqi Yao, Qizhi Chen, Qi Lv, Yiwen Tang, Modi Shi, Guanghui Ren, Maoqing Yao, Bin Zhao, Dong Wang, Xuelong Li

개요

본 논문은 물리적 세계에서 복잡한 작업을 수행할 때 인간이 실제 행동을 하기 전에 느린 사고(slow thinking)를 하는 방식에 착안하여, 로봇 기반 모델에 인간과 유사한 사고 능력을 부여하는 것을 목표로 합니다. 이를 위해, 가치(value)에 기반한 시스템 2 사고와 계단식 행동 잡음 제거를 갖춘 이중 시스템 비전-언어-행동(VLA) 모델인 Hume을 제안합니다. Hume의 시스템 2는 새로운 가치 쿼리 헤드를 사용하여 예측된 행동의 상태-행동 가치를 추정하고, 여러 행동 후보를 반복적으로 샘플링하여 상태-행동 가치에 따라 하나를 선택하는 가치 유도 사고를 구현합니다. 시스템 1은 시스템 2가 선택한 행동을 받아 손재주 있는 로봇 제어를 위해 계단식 행동 잡음 제거를 수행하는 경량 반응 시각 운동 정책입니다. 배포 시, 시스템 2는 낮은 주파수로 가치 유도 사고를 수행하고, 시스템 1은 비동기적으로 시스템 2가 선택한 행동 후보를 받아 실시간으로 유동적인 행동을 예측합니다. 실험 결과, Hume은 여러 시뮬레이션 벤치마크와 실제 로봇 배포에서 기존 최첨단 VLA 모델보다 우수한 성능을 보였습니다.

시사점, 한계점

시사점:
인간의 느린 사고 과정을 로봇 제어에 적용하여 복잡한 작업 수행 능력 향상.
가치 유도 사고를 통해 효율적인 행동 선택 및 계획 가능.
시스템 1과 시스템 2의 이중 시스템 구조를 통해 실시간 성능과 계획 능력의 균형 유지.
다양한 시뮬레이션 및 실제 로봇 환경에서 우수한 성능 검증.
한계점:
제안된 모델의 가치 함수 학습의 효율성 및 일반화 성능에 대한 추가적인 연구 필요.
다양한 복잡한 작업 환경에 대한 일반화 성능 평가가 더 필요함.
실제 세계의 복잡성과 불확실성을 완벽하게 처리하는 데는 한계가 있을 수 있음.
시스템 2의 낮은 주파수 동작으로 인한 지연 문제 발생 가능성.
👍