Cet article présente une technique de mise à l'échelle en temps de test pour améliorer la robustesse du modèle Vision-Langage-Action (VLA) dans des environnements réels non structurés. Nous étudions comment améliorer la robustesse et les performances de généralisation du VLA par échantillonnage et validation, et montrons que la relation entre l'erreur d'action et le nombre d'échantillons générés suit une loi de puissance exponentielle. Sur cette base, nous proposons RoboMonkey, un cadre de mise à l'échelle en temps de test pour VLA. RoboMonkey génère plusieurs échantillons d'actions à partir du VLA, ajoute un bruit gaussien, génère une distribution de propositions d'actions par vote majoritaire, puis sélectionne l'action optimale à l'aide d'un vérificateur basé sur VLM. Nous entraînons un vérificateur d'actions basé sur VLM via un pipeline de génération de données synthétiques, et démontrons l'amélioration des performances du VLA grâce à RoboMonkey par des simulations et des expériences matérielles. Les résultats expérimentaux montrent une amélioration absolue des performances de 25 % sur les tâches hors distribution et de 9 % sur les tâches en distribution, et montrent que le réglage fin du VLA et du vérificateur d'action ensemble améliore les performances de 7 % par rapport au réglage fin du VLA seul lors de l'adaptation à un nouveau réglage du robot.