Sign In

Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer

Created by
  • Haebom
Category
Empty

저자

Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon

개요

본 논문은 2D 엔지니어링 도면에서 핵심 정보를 정확하게 추출하기 위한 새로운 하이브리드 딥 러닝 프레임워크를 제안합니다. 기존의 OCR 기술의 한계를 극복하기 위해, 방향이 있는 경계 상자(OBB) 검출 모델(YOLOv11)과 트랜스포머 기반 문서 파싱 모델(Donut)을 통합했습니다. 9가지 주요 범주(GD&T, 일반 공차, 치수, 재료, 주석, 반지름, 표면 거칠기, 나사산, 제목 블록)를 검출하고, Donut을 미세 조정하여 구조화된 JSON 출력을 생성합니다. 모든 범주에 대해 단일 모델을 학습하는 방식과 범주별 모델을 학습하는 방식을 비교하여, 단일 모델이 모든 평가 지표에서 더 높은 정확도(GD&T에 대해 94.77%), 재현율(대부분 100%), F1 점수(97.3%)를 달성하고 환각(5.23%)을 줄이는 것을 확인했습니다. 이 프레임워크는 정밀도가 중요한 산업에서 정확도 향상, 수동 작업 감소 및 확장 가능한 배포를 지원합니다.

시사점, 한계점

시사점:
2D 엔지니어링 도면에서 핵심 정보를 정확하고 효율적으로 추출하는 새로운 방법 제시.
YOLOv11과 Donut의 통합을 통해 기존 OCR 기술의 한계 극복.
단일 모델 학습 방식의 우수한 성능 검증.
정밀도가 중요한 산업에서의 자동화 및 효율성 증대 가능성 제시.
한계점:
제안된 프레임워크의 성능은 사용된 데이터셋에 의존적일 수 있음.
다양한 스타일과 복잡도의 도면에 대한 일반화 성능 평가 필요.
실제 산업 환경에서의 적용 가능성에 대한 추가적인 검증 필요.
in-house annotated dataset 사용으로 일반화 가능성에 대한 추가 연구 필요.
👍