Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer

Created by
  • Haebom

作者

Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon

概要

本稿では、2Dエンジニアリング図面から重要な情報を正確に抽出するための新しいハイブリッドディープラーニングフレームワークを提案します。従来のOCR技術が複雑なレイアウトとネストされたシンボルのために非定型出力を生成する問題を解決するために、方向境界ボックス(OBB)検出モデルとトランスベースの文書解析モデル(Donut)を統合するハイブリッドアプローチを使用します。 YOLOv11を使用して、GD&T、一般公差、寸法、材料、錫、半径、表面粗さ、ねじ山、タイトルブロックなど、9つの主要カテゴリを検出し、検出されたOBBをカットしてDonutを微調整して構造化されたJSON出力を生成します。すべてのカテゴリーに対して単一モデルとカテゴリー別モデルを使用する2つの微調整戦略を比較分析した結果、単一モデルがすべての評価指標でより高い精度(GD&Tでは94.77%)、再現率(ほとんどのカテゴリーで100%)、F1スコア(97.3%)を達成し、幻覚(5.2。提案されたフレームワークは、精度を向上させ、手作業を減らし、精度ベースの産業でスケーラブルな展開をサポートします。

Takeaways、Limitations

Takeaways:
2Dエンジニアリング図面からコア情報を正確かつ効率的に抽出する新しいディープラーニングベースのフレームワークの提示
OBB検出と変圧器ベースの文書解析モデルの効果的な統合による精度の向上と手作業の削減
単一モデルベースの微調整戦略の優秀性の確認
精度ベースの産業におけるスケーラブルな展開のサポート
Limitations:
提案されたフレームワークの性能評価は、研究チーム自身が構築したデータセットに依存している。さまざまな図面タイプと複雑さの一般化性能検証が必要です。
9つの特定のカテゴリのパフォーマンス評価で、他の種類の情報抽出の一般化の可能性にはさらなる研究が必要です。
YOLOv11とDonutモデルの特定のバージョンに依存し、他のモデルを使用するとパフォーマンスの違いが発生する可能性があります。
実際の産業環境の適用のための追加の検証と最適化が必要です。
👍