Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

Created by
  • Haebom

저자

Haoming Song, Delin Qu, Yuanqi Yao, Qizhi Chen, Qi Lv, Yiwen Tang, Modi Shi, Guanghui Ren, Maoqing Yao, Bin Zhao, Dong Wang, Xuelong Li

개요

본 논문은 물리적 세계에서 복잡한 작업을 수행할 때 인간이 실제 행동을 수행하기 전에 느린 사고(slow thinking)를 하는 것에 착안하여, 로봇 기초 모델에 이러한 사고 방식을 적용하는 Hume이라는 이중 시스템 Vision-Language-Action (VLA) 모델을 제안합니다. Hume은 가치(value)를 기반으로 하는 시스템 2 사고와 계단식(cascaded) 행동 잡음 제거를 통해 인간과 같은 사고 능력을 가진 VLA 모델을 구현합니다. 시스템 2는 새로운 가치 쿼리 헤드를 사용하여 예측된 행동의 상태-행동 가치를 추정하고, 여러 행동 후보를 반복적으로 샘플링하여 상태-행동 가치에 따라 하나를 선택합니다. 시스템 1은 시스템 2가 선택한 행동을 받아 실시간으로 유연한 행동을 예측하는 경량 반응 시각운동 정책입니다. 실험 결과, Hume은 여러 시뮬레이션 벤치마크와 실제 로봇 배포에서 기존 최첨단 VLA 모델을 능가하는 성능을 보여줍니다.

시사점, 한계점

시사점:
인간의 느린 사고 과정을 로봇 제어에 적용하여 성능 향상을 달성.
가치 기반의 시스템 2 사고와 계단식 행동 잡음 제거를 통한 효율적인 행동 계획 및 실행.
시뮬레이션과 실제 로봇 환경 모두에서 기존 모델보다 우수한 성능 입증.
복잡한 작업을 수행하는 데 있어서 인간과 유사한 사고 능력을 갖춘 로봇 제어 모델 개발 가능성 제시.
한계점:
제안된 모델의 일반화 성능에 대한 추가적인 검증 필요.
다양한 환경 및 작업에 대한 적응력 평가 필요.
시스템 2의 가치 추정의 정확성 및 효율성에 대한 추가적인 분석 필요.
실제 세계의 복잡성과 불확실성을 완벽하게 처리하는 데 대한 한계 존재 가능성.
👍