CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models
Created by
Haebom
Category
Empty
저자
Qingqing Zhao, Yao Lu, Moo Jin Kim, Zipeng Fu, Zhuoyang Zhang, Yecheng Wu, Zhaoshuo Li, Qianli Ma, Song Han, Chelsea Finn, Ankur Handa, Ming-Yu Liu, Donglai Xiang, Gordon Wetzstein, Tsung-Yi Lin
개요
본 논문은 시각-언어-행동 모델(VLAs)에 명시적인 시각적 사고 과정(CoT) 추론을 통합하는 방법을 제시합니다. 기존 VLAs는 직접적인 입력-출력 매핑에 초점을 맞춰 복잡한 조작 작업에 필요한 중간 추론 단계가 부족한 한계를 지니고 있는데, 본 논문에서는 미래 이미지 프레임을 자기회귀적으로 예측하여 시각적 목표로 설정한 후, 이러한 목표를 달성하기 위한 짧은 행동 시퀀스를 생성함으로써 이 문제를 해결합니다. 7B 크기의 최첨단 VLA 모델인 CoT-VLA를 소개하며, 실제 세계 조작 작업에서 기존 최고 성능 모델보다 17%, 시뮬레이션 벤치마크에서 6% 향상된 성능을 보임을 실험 결과를 통해 입증합니다.