Cet article présente les avancées récentes des modèles de langage multimodaux à grande échelle (MLLM), qui permettent de générer des preuves perceptuelles riches pour la génération de politiques de code dans les agents incarnés. La plupart des systèmes existants manquent de mécanismes efficaces pour surveiller de manière adaptative l'exécution des politiques et récupérer le code pendant l'exécution des tâches. Cette étude présente HyCodePolicy, un cadre de contrôle basé sur un langage hybride qui intègre systématiquement la synthèse de code, les preuves géométriques, la surveillance perceptuelle et la récupération itérative dans le cycle de programmation en boucle fermée des agents incarnés. Étant donné une instruction en langage naturel, le système la décompose d'abord en sous-objectifs et génère un programme exécutable initial basé sur des primitives géométriques orientées objet. Ensuite, pendant l'exécution du programme en simulation, un modèle de langage vision (VLM) observe des points de contrôle sélectionnés pour détecter, localiser et inférer la cause des échecs d'exécution. En intégrant des traces d'exécution structurées qui capturent les événements au niveau du programme avec un retour perceptuel basé sur le VLM, HyCodePolicy infère la cause des échecs et récupère le programme. Ce mécanisme hybride à double rétroaction permet la synthèse de programmes autocorrectifs avec une supervision humaine minimale. Les résultats expérimentaux démontrent que HyCodePolicy améliore significativement la robustesse et l'efficacité d'échantillonnage des politiques de manipulation des robots, offrant ainsi une stratégie évolutive pour intégrer l'inférence multimodale dans les pipelines de prise de décision autonome.