Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models

Created by
  • Haebom
Category
Empty

저자

Cheng Yin, Yankai Lin, Wang Xu, Sikyuen Tam, Xiangrui Zeng, Zhiyuan Liu, Zhouping Yin

개요

Vision-Language-Action (VLA) 모델이 Chain-of-Thought (CoT)를 사용하여 "행동 전에 생각"하도록 함으로써, end-to-end 로봇 정책의 데이터 의존성을 극복하는 새로운 접근 방식을 제시합니다. 기존 모델의 문제점인 순차적 CoT 추론과 고차원 병렬 로봇 액션 간의 아키텍처 불일치를 해결하기 위해, DeepThinkVLA라는 아키텍처를 제안합니다. DeepThinkVLA는 인과적 어텐션을 사용하여 순차적 CoT를 생성하는 하이브리드 어텐션 디코더와 빠른 병렬 액션 벡터 디코딩을 위한 양방향 어텐션을 사용합니다. Supervised Fine-Tuning (SFT)과 Reinforcement Learning (RL)을 활용한 2단계 훈련 파이프라인을 통해, 추론-액션 시퀀스를 원하는 결과에 인과적으로 정렬합니다. LIBERO 벤치마크에서 97.0%의 성공률을 달성하며, 하이브리드 아키텍처와 RL 단계의 효과를 입증합니다.

시사점, 한계점

시사점:
CoT를 활용한 VLA 모델의 성능 향상
하이브리드 아키텍처를 통한 추론-액션 간의 인과적 연결 강화
2단계 훈련 파이프라인의 효과 (SFT 및 RL)
LIBERO 벤치마크에서 최고 성능 달성
한계점:
특정 벤치마크(LIBERO)에 국한된 성능 검증
모델 복잡성 및 훈련 과정의 복잡성
다른 VLA 모델과의 비교 분석 부족
👍