学习有效的机器人视觉运动策略极具挑战性,因为它需要在保持计算效率的同时生成精确的运动。本文观察到,在频域中表示运动能够更有效地捕捉结构化运动。低频成分反映全局运动模式,而高频成分则编码精细的细节。此外,不同复杂度的机器人操作任务需要在这些频段内实现不同程度的建模精度。受此启发,我们提出了一种新颖的视觉运动策略学习范式,该范式可以对分层频率成分进行增量建模。为了进一步提高精度,我们引入了连续潜在表征,以保持运动空间的平滑度和连续性。在各种二维和三维机器人操作基准测试上进行的大量实验表明,该方法在精度和效率方面均优于现有方法,而使用连续标记的频域自回归框架则展现了其在广义机器人操作方面的潜力。