본 연구는 복잡한 비즈니스 워크플로우를 표현하는 데 널리 사용되는 표준인 BPMN(Business Process Model and Notation) 다이어그램을 이미지로부터 직접 구조화된 JSON 표현으로 추출하는 파이프라인을 제시합니다. 이는 원본 모델 파일이나 텍스트 주석 없이 Vision-Language Model(VLM)을 활용하며, OCR(Optical Character Recognition)을 통한 텍스트 보강을 포함합니다. 연구는 다양한 VLM의 성능을 평가하고, OCR 기반 텍스트 보강 및 프롬프트 제거 연구의 영향에 대한 통계 분석을 수행하여 모델 성능에 대한 이해를 높입니다.