本文提出了一个用于视觉-语言-动作 (VLA) 推理任务的双系统框架 ThinkAct。为了克服现有端到端 VLA 模型对多阶段规划或复杂任务变化的适应性不足的局限性,ThinkAct 通过增强的视觉潜在规划将高级推理与低级动作执行连接起来。它训练一个多模态 LLM,以生成由视觉奖励引导的具身推理计划,这些计划与目标达成和轨迹一致性相一致。这些计划随后被压缩到视觉规划潜在空间,并用作低级动作模型的条件,从而在目标环境中实现鲁棒的动作执行。大量的具身推理和机器人操作基准测试表明,ThinkAct 能够在几次试验中实现复杂具身人工智能任务中的适应性、长期规划和自我修正行为。