Dans cet article, nous présentons VLMgineer, un framework de co-conception itérative d'outils physiques et de leurs plans d'actionnement, exploitant les capacités de génération de code du modèle de langage de vision (VLM) et l'exploration évolutive. VLMgineer est évalué sur une variété de benchmarks inédits de scénarios de manipulation quotidienne nécessitant une conception et une utilisation créatives d'outils. Nous démontrons qu'il permet de découvrir des outils et des politiques plus efficaces et innovants que les outils existants créés par l'homme ou les conceptions génératives VLM dirigées par l'homme, transformant ainsi des problèmes robotiques complexes en exécutions simples. Nous prévoyons de rendre le benchmark et le code accessibles au public pour de futures recherches sur l'invention d'outils automatisés.