Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CAD2DMD-SET: Công cụ tạo tổng hợp các bộ dữ liệu mô hình CAD của thiết bị đo lường kỹ thuật số để tinh chỉnh các mô hình ngôn ngữ thị giác lớn

Created by
  • Haebom

Tác giả

Jo ao Valente, Atabak Dehban, Rodrigo Ventura

Phác thảo

Bài báo này đề xuất CAD2DMD-SET, một công cụ tạo dữ liệu tổng hợp, để giải quyết thách thức thực tế của các mô hình ngôn ngữ thị giác quy mô lớn (LVLM) đang gặp khó khăn với nhiệm vụ đơn giản là đọc giá trị từ các thiết bị đo lường kỹ thuật số (DMD). CAD2DMD-SET tận dụng các mô hình CAD 3D, kết xuất nâng cao và tổng hợp hình ảnh độ trung thực cao để tạo ra một tập dữ liệu DMD tổng hợp được gắn nhãn VQA đa dạng, cùng với một bộ xác thực, DMDBench, để đánh giá các ràng buộc trong thế giới thực. Các đánh giá trên ba LVLM tiên tiến cho thấy những cải tiến đáng kể về hiệu suất đối với các mô hình được đào tạo bằng CAD2DMD-SET, với InternVL đạt được mức tăng hiệu suất 200%. CAD2DMD-SET sẽ được mã nguồn mở trong tương lai.

Takeaways, Limitations

Takeaways:
Chúng tôi xin giới thiệu CAD2DMD-SET, một công cụ tạo dữ liệu tổng hợp góp phần cải thiện hiệu suất đọc giá trị DMD của LVLM.
Tạo và đánh giá các tập dữ liệu có tính đến các thách thức trong thế giới thực (nhiễu, che khuất, góc nhìn cực đoan, chuyển động mờ).
Đã Chứng minh được hiệu quả trong việc cải thiện đáng kể hiệu suất của LVLM hiện đại (cải thiện 200% đối với InternVL).
Trình bày khả năng sử dụng của cộng đồng nghiên cứu thông qua việc công bố nguồn mở trong tương lai.
Limitations:
Hiện tại, CAD2DMD-SET không phải là mã nguồn mở tại thời điểm xuất bản.
Quy mô của DMDBench (1.000 hình ảnh) có thể tương đối nhỏ.
Cần có thêm nghiên cứu về hiệu suất tổng quát trên các loại và môi trường DMD khác nhau.
👍