[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding

Created by
  • Haebom

저자

Takamitsu Omasa, Ryo Koshihara, Masumi Morishige

개요

본 논문은 소프트웨어 설계 및 비즈니스 프로세스 분석에 필수적인 플로우차트를 효과적으로 이해하기 위한 비전-언어 모델(VLM) 기반 방법론을 제시합니다. 기존 VLM들이 플로우차트의 방향 화살표와 그래프 토폴로지를 정확히 해석하지 못하는 문제를 해결하기 위해, 노드 및 화살표 끝점 검출, OCR을 통한 노드 텍스트 추출, 그리고 VLM을 위한 구조화된 프롬프트 생성의 세 단계로 구성된 7단계 파이프라인을 제안합니다. 30개의 주석이 달린 플로우차트에서 추출한 90개 질문 벤치마크에 대한 실험 결과, 제안된 방법은 추가적인 task-specific fine-tuning 없이 전체 정확도를 80%에서 89%로 향상시켰습니다(9%p 증가). 특히 다음 단계 질문에 대한 정확도 향상이 두드러졌습니다. LLM 기반 평가 또한 동일한 경향을 보였습니다.

시사점, 한계점

시사점:
플로우차트 해석 정확도 향상: 제안된 방법은 기존 VLM의 플로우차트 해석 정확도를 9%p 향상시켰습니다. 특히 다음 단계 질문에 대한 정확도를 100%로 높였습니다.
명시적인 화살표 인코딩의 중요성 강조: LLM 기반 평가를 통해 명시적인 화살표 인코딩의 효과를 확인했습니다.
한계점:
검출기 및 OCR 정확도 의존성: 파이프라인의 성능은 검출기와 OCR의 정확도에 의존합니다.
작은 평가 집합: 평가에 사용된 데이터셋의 크기가 작습니다.
다중 입력 간선 노드에서의 잔류 오류: 여러 개의 입력 간선을 가진 노드에서 오류가 남아있습니다.
BPMN, UML 지원 부족: 현재 BPMN과 UML에 대한 지원은 없습니다.
👍