Vision-Language-Action (VLA) 모델이 Chain-of-Thought (CoT)를 사용하여 "행동 전에 생각"하도록 함으로써, end-to-end 로봇 정책의 데이터 의존성을 극복하는 새로운 접근 방식을 제시합니다. 기존 모델의 문제점인 순차적 CoT 추론과 고차원 병렬 로봇 액션 간의 아키텍처 불일치를 해결하기 위해, DeepThinkVLA라는 아키텍처를 제안합니다. DeepThinkVLA는 인과적 어텐션을 사용하여 순차적 CoT를 생성하는 하이브리드 어텐션 디코더와 빠른 병렬 액션 벡터 디코딩을 위한 양방향 어텐션을 사용합니다. Supervised Fine-Tuning (SFT)과 Reinforcement Learning (RL)을 활용한 2단계 훈련 파이프라인을 통해, 추론-액션 시퀀스를 원하는 결과에 인과적으로 정렬합니다. LIBERO 벤치마크에서 97.0%의 성공률을 달성하며, 하이브리드 아키텍처와 RL 단계의 효과를 입증합니다.