본 논문은 Vision Language Model(VLM)의 코드 생성 능력과 진화적 탐색을 활용하여 물리적 도구와 그 작동 계획을 반복적으로 공동 설계하는 프레임워크인 VLMgineer를 제시합니다. VLMgineer는 창의적인 도구 설계 및 사용을 요구하는 일상적인 조작 시나리오의 다양한 새로운 벤치마크에서 평가되었으며, 기존의 인간이 만든 도구나 인간의 지시에 따른 VLM 생성 디자인보다 더 효과적이고 혁신적인 도구와 정책을 발견하여 어려운 로봇 문제를 간단한 실행으로 변환하는 것을 보여줍니다. 향후 자동화된 도구 발명 연구를 위해 벤치마크와 코드를 공개할 예정입니다.