Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer

Created by
  • Haebom

저자

Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon

개요

본 논문은 2D 엔지니어링 도면에서 핵심 정보를 정확하게 추출하기 위한 새로운 하이브리드 딥러닝 프레임워크를 제안합니다. 기존의 OCR 기법이 복잡한 레이아웃과 중복된 기호로 인해 비정형 출력을 생성하는 문제를 해결하기 위해, 방향 경계 상자(OBB) 검출 모델과 Transformer 기반 문서 파싱 모델(Donut)을 통합했습니다. YOLOv11을 사용하여 GD&T, 일반 공차, 치수, 재료, 주석, 반지름, 표면 거칠기, 나사산, 제목 블록 등 9가지 주요 범주를 검출하고, 검출된 OBB를 잘라 Donut을 미세 조정하여 구조화된 JSON 출력을 생성합니다. 모든 범주에 대해 단일 모델을 학습하는 방법과 범주별 모델을 학습하는 방법을 비교 분석한 결과, 단일 모델이 모든 평가 지표에서 더 높은 정확도(GD&T의 경우 94.77%), 재현율(대부분 100%), F1 점수(97.3%)를 달성하고 환각(5.23%)을 줄이는 것으로 나타났습니다. 이 프레임워크는 정밀도 기반 산업에서 정확성을 높이고 수동 작업을 줄이며 확장 가능한 배포를 지원합니다.

시사점, 한계점

시사점:
2D 엔지니어링 도면에서 핵심 정보 추출의 정확도와 효율성을 향상시키는 새로운 하이브리드 딥러닝 프레임워크 제시.
단일 모델 기반 접근 방식이 다중 범주별 모델보다 우수한 성능을 보임을 실험적으로 입증.
정밀도가 요구되는 산업에서 자동화된 정보 추출을 통해 생산성 향상 및 인적 오류 감소 가능성 제시.
구조화된 JSON 출력을 통해 후속 처리 및 시스템 통합 용이성 확보.
한계점:
제안된 프레임워크의 성능은 사용된 자체 구축 데이터셋에 의존적일 수 있음. 다양한 도면 스타일과 복잡도에 대한 일반화 성능 검증 필요.
환각 비율 5.23%는 여전히 개선 여지가 있음. 더욱 강건한 모델 개발 및 오류 검출 메커니즘 추가 필요.
특정 도면 유형이나 산업에 국한된 데이터셋 사용으로 인한 일반화 성능 저하 가능성. 다양한 도면 유형을 포함하는 더 큰 규모의 데이터셋으로의 확장 필요.
👍