Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

Created by
  • Haebom

저자

Haoming Song, Delin Qu, Yuanqi Yao, Qizhi Chen, Qi Lv, Yiwen Tang, Modi Shi, Guanghui Ren, Maoqing Yao, Bin Zhao, Dong Wang, Xuelong Li

개요

본 논문은 물리적 세계에서 복잡한 작업을 수행할 때 인간이 실제 행동을 하기 전에 느린 사고(slow thinking)를 하는 방식에 착안하여, 로봇 기반 모델의 능숙한 제어를 위한 인간과 유사한 사고 능력을 탐구하는 Hume이라는 이중 시스템 Vision-Language-Action (VLA) 모델을 제안합니다. Hume은 가치(value) 기반 시스템 2 사고와 계단식 행동 잡음 제거를 통해, 가치 기반 사고를 위해 VLA 모델에 새로운 가치 질의 헤드를 추가하고, 여러 행동 후보를 반복적으로 샘플링하여 상태-행동 가치에 따라 하나를 선택합니다. 시스템 1은 시스템 2가 선택한 행동을 받아 능숙한 로봇 제어를 위해 계단식 행동 잡음 제거를 수행하는 경량 반응 시각 운동 정책입니다. 시스템 2는 저주파로 가치 기반 사고를 수행하고, 시스템 1은 비동기적으로 시스템 2가 선택한 행동 후보를 받아 실시간으로 유동적인 행동을 예측합니다. 실험 결과, Hume은 여러 시뮬레이션 벤치마크와 실제 로봇 배포에서 기존 최첨단 VLA 모델보다 우수한 성능을 보입니다.

시사점, 한계점

시사점:
인간의 느린 사고 방식을 로봇 제어에 적용하여 성능 향상을 달성함.
이중 시스템 VLA 모델을 통해 시스템 1과 시스템 2의 효율적인 협업 구현.
가치 기반 사고를 도입하여 더욱 효과적인 의사결정 가능.
다양한 시뮬레이션 및 실제 로봇 실험을 통해 성능 검증.
한계점:
현재는 시뮬레이션 환경과 제한된 실제 로봇 환경에서만 테스트되었으므로, 더욱 다양하고 복잡한 환경에서의 일반화 성능은 추가 연구가 필요함.
가치 함수의 정확성에 모델 성능이 크게 의존하므로, 가치 함수 학습의 안정성 및 일반화 성능 향상 연구 필요.
시스템 1과 시스템 2 간의 상호작용 및 정보 전달 효율성에 대한 추가적인 분석 필요.
👍