Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Structured Extraction from Business Process Diagrams Using Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Pritam Deka, Barry Devereux

개요

본 연구는 복잡한 비즈니스 워크플로우를 표현하는 데 널리 사용되는 표준인 BPMN(Business Process Model and Notation) 다이어그램을 이미지로부터 직접 구조화된 JSON 표현으로 추출하는 파이프라인을 제시합니다. 이는 원본 모델 파일이나 텍스트 주석 없이 Vision-Language Model(VLM)을 활용하며, OCR(Optical Character Recognition)을 통한 텍스트 보강을 포함합니다. 연구는 다양한 VLM의 성능을 평가하고, OCR 기반 텍스트 보강 및 프롬프트 제거 연구의 영향에 대한 통계 분석을 수행하여 모델 성능에 대한 이해를 높입니다.

시사점, 한계점

시사점:
원본 파일 없이 이미지 기반 BPMN 다이어그램 분석 가능
VLM을 활용하여 BPMN 요소 추출 가능
OCR을 통한 텍스트 보강으로 모델 성능 향상
광범위한 실험을 통해 OCR 및 프롬프트의 영향 분석
한계점:
VLM 성능에 의존적
추출 정확도는 VLM 모델 및 OCR 정확도에 따라 제한적
복잡한 BPMN 다이어그램의 경우 성능 저하 가능성
👍