본 논문은 시각적 추론에서 대규모 언어 모델(LLM)의 한계를 극복하기 위해, 파이썬 기반 도구를 자율적으로 생성, 실행 및 개선하는 대화형 멀티턴 프레임워크인 PyVision을 제시합니다. PyVision은 사전 정의된 워크플로우와 정적 도구 집합의 제한을 뛰어넘어 유연하고 해석 가능한 문제 해결을 가능하게 합니다. 본 연구는 PyVision이 생성한 도구의 분류 체계를 개발하고 다양한 벤치마크에서의 사용을 분석합니다. 실험 결과, PyVision은 GPT-4.1의 V* 성능을 7.8% 향상시키고 Claude-4.0-Sonnet의 VLMsAreBlind-mini 성능을 31.1% 향상시키는 등 일관된 성능 향상을 달성했습니다. 이는 모델이 도구를 사용하는 것을 넘어 도구를 발명하는 단계로 발전하여, 보다 적극적인 시각적 추론으로 나아가는 것을 시사합니다.