본 논문은 소프트웨어 설계 및 비즈니스 프로세스 분석에 필수적인 플로우차트를 효과적으로 이해하기 위한 비전-언어 모델(VLM) 기반 방법론을 제시합니다. 기존 VLM들이 플로우차트의 방향 화살표와 그래프 토폴로지를 정확히 해석하지 못하는 문제를 해결하기 위해, 노드 및 화살표 끝점 검출, OCR을 통한 노드 텍스트 추출, 그리고 VLM을 위한 구조화된 프롬프트 생성의 세 단계로 구성된 7단계 파이프라인을 제안합니다. 30개의 주석이 달린 플로우차트에서 추출한 90개 질문 벤치마크에 대한 실험 결과, 제안된 방법은 추가적인 task-specific fine-tuning 없이 전체 정확도를 80%에서 89%로 향상시켰습니다(9%p 증가). 특히 다음 단계 질문에 대한 정확도 향상이 두드러졌습니다. LLM 기반 평가 또한 동일한 경향을 보였습니다.