Este artículo analiza los avances recientes en modelos de lenguaje multimodales a gran escala (MLLM), que permiten obtener evidencia perceptual enriquecida para la generación de políticas de código en agentes encarnados. La mayoría de los sistemas existentes carecen de mecanismos efectivos para la monitorización adaptativa de la ejecución de políticas y la recuperación de código durante la finalización de tareas. Este estudio presenta HyCodePolicy, un marco de control híbrido basado en lenguaje que integra sistemáticamente la síntesis de código, la evidencia geométrica, la monitorización perceptual y la recuperación iterativa en el ciclo de programación de bucle cerrado de agentes encarnados. Dada una instrucción en lenguaje natural, el sistema la descompone primero en subobjetivos y genera un programa ejecutable inicial basado en primitivas geométricas orientadas a objetos. Posteriormente, mientras el programa se ejecuta en simulación, un modelo de visión-lenguaje (VLM) observa puntos de control seleccionados para detectar, localizar e inferir la causa de los fallos de ejecución. Mediante la integración de trazas de ejecución estructuradas que capturan eventos a nivel de programa con retroalimentación perceptual basada en VLM, HyCodePolicy infiere la causa de los fallos y recupera el programa. Este mecanismo híbrido de doble retroalimentación permite la síntesis de programas autocorrectivos con mínima supervisión humana. Los resultados experimentales demuestran que HyCodePolicy mejora significativamente la robustez y la eficiencia de las muestras de las políticas de manipulación robótica, proporcionando una estrategia escalable para integrar la inferencia multimodal en los procesos de toma de decisiones autónoma.