Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phân tích cú pháp tự động các bản vẽ kỹ thuật để trích xuất thông tin có cấu trúc bằng cách sử dụng tài liệu được tinh chỉnh Hiểu về Transformer

Created by
  • Haebom

Tác giả

Muhammad Tayyab Khan, Zane Yong, Lequn Chen, Jun Ming Tan, Wenhe Feng, Seung Ki Moon

Phác thảo

Bài báo này đề xuất một khuôn khổ học sâu lai mới để trích xuất chính xác thông tin quan trọng từ các bản vẽ kỹ thuật 2D. Để giải quyết vấn đề các kỹ thuật OCR thông thường tạo ra đầu ra không có cấu trúc do bố cục phức tạp và các ký hiệu chồng chéo, chúng tôi sử dụng một phương pháp lai tích hợp mô hình phát hiện hộp giới hạn định hướng (OBB) và mô hình phân tích cú pháp tài liệu dựa trên bộ biến đổi (Donut). Sử dụng YOLOv11, chúng tôi phát hiện chín danh mục chính—GD&T, dung sai chung, kích thước, vật liệu, chú thích, bán kính, độ nhám bề mặt, luồng và khối tiêu đề—và tinh chỉnh Donut để tạo đầu ra JSON có cấu trúc. Chúng tôi so sánh hai chiến lược tinh chỉnh: một mô hình duy nhất cho tất cả các danh mục và một mô hình dành riêng cho danh mục. Chúng tôi thấy rằng mô hình duy nhất đạt được độ chính xác cao hơn (94,77% cho GD&T), khả năng thu hồi (100% cho hầu hết các danh mục), điểm F1 (97,3%) và giảm ảo giác (5,23%) trên tất cả các số liệu đánh giá. Khuôn khổ được đề xuất cải thiện độ chính xác, giảm công việc thủ công và hỗ trợ triển khai có thể mở rộng trong các ngành công nghiệp dựa trên độ chính xác.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ học sâu mới để trích xuất thông tin quan trọng từ bản vẽ kỹ thuật 2D một cách chính xác và hiệu quả.
Độ Chính xác được cải thiện và giảm bớt công sức thủ công thông qua việc tích hợp hiệu quả các mô hình phát hiện OBB và phân tích tài liệu dựa trên Transformer.
Xác nhận tính ưu việt của chiến lược điều chỉnh dựa trên mô hình đơn (độ chính xác cao, khả năng thu hồi, đạt điểm F1 và giảm ảo giác)
Hỗ trợ triển khai có khả năng mở rộng trong các ngành công nghiệp đòi hỏi độ chính xác
Limitations:
Việc đánh giá hiệu suất của khung đề xuất dựa trên bộ dữ liệu do chính nhóm nghiên cứu xây dựng. Hiệu suất khái quát hóa trên nhiều loại bản vẽ và độ phức tạp khác nhau cần được xác minh.
Hiệu suất được đánh giá theo chín hạng mục cụ thể và khả năng tổng quát hóa cho các loại trích xuất thông tin khác cần được nghiên cứu thêm.
Tùy thuộc vào phiên bản cụ thể của YOLOv11 và mẫu Donut, hiệu suất có thể khác nhau khi sử dụng các mẫu khác.
Cần phải xác thực và tối ưu hóa thêm để ứng dụng vào môi trường công nghiệp thực tế.
👍