본 논문은 Vision-Language-Action (VLA) 추론 과제를 위한 새로운 프레임워크인 ThinkAct를 제안합니다. 기존의 end-to-end 방식 VLA 모델들이 다단계 계획이나 복잡한 과제 변화에 대한 적응력이 부족한 한계를 극복하기 위해, ThinkAct는 고차원 추론과 저차원 행동 실행을 연결하는 이중 시스템 프레임워크를 제시합니다. 다중 모달 LLM을 훈련하여 목표 달성 및 궤적 일관성에 기반한 강화된 시각적 보상으로 안내되는 구현된 추론 계획을 생성하고, 이 계획을 시각적 계획 잠재 공간으로 압축하여 하류 행동 모델의 강력한 행동 실행을 조건화합니다. 구현된 추론 및 로봇 조작 벤치마크에 대한 광범위한 실험을 통해 ThinkAct가 복잡한 구현 AI 과제에서 몇 번의 시도만으로 적응, 장기 계획 및 자가 수정 동작을 가능하게 함을 보여줍니다.