Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phân cụm tài liệu và mẫu không giám sát bằng cách sử dụng nhúng đa phương thức

Created by
  • Haebom

Tác giả

Phillipe R. Sampaio, Helene Maxcici

Phác thảo

Bài báo này đề xuất một phương pháp mới để phân cụm tài liệu không giám sát bằng cách sử dụng nhúng đa phương thức, tận dụng nhiều phương thức khác nhau (văn bản, thông tin bố cục và các đặc điểm trực quan). Ngoài việc phân loại loại tài liệu đơn giản (ví dụ: hóa đơn, đơn đặt hàng), chúng tôi hướng đến việc hiểu tài liệu chi tiết hơn bằng cách phân biệt các mẫu khác nhau trong cùng một loại tài liệu. Chúng tôi đánh giá hiệu suất của các nhúng được tạo bằng các mô hình đa phương thức được đào tạo trước tiên tiến, bao gồm SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, ColPali, Gemma3 và InternVL3, bằng cách áp dụng chúng vào các thuật toán phân cụm như $k$-Means, DBSCAN, HDBSCAN với $k$-NN và BIRCH. Kết quả thực nghiệm chứng minh tiềm năng của nhúng đa phương thức trong việc cải thiện hiệu suất phân cụm tài liệu, cho thấy tiềm năng của chúng đối với các ứng dụng đa dạng, bao gồm xử lý tài liệu thông minh, phân tích bố cục tài liệu và phân loại tài liệu không giám sát. Hơn nữa, chúng tôi phân tích điểm mạnh và điểm yếu của các mô hình đa phương thức khác nhau và đề xuất các hướng nghiên cứu trong tương lai.

Takeaways, Limitations

Takeaways:
Chứng minh tính hiệu quả của việc phân cụ tài liệu không giám sát bằng cách sử dụng nhúng đa phương thức.
Một cách tiếp cận mới để hiểu và phân loại tài liệu chi tiết.
Cung cấp hướng dẫn lựa chọn mô hình tối ưu thông qua phân tích so sánh hiệu suất của nhiều mô hình đa phương thức khác nhau.
Nó trình bày các ứng dụng tiềm năng trong nhiều lĩnh vực như xử lý tài liệu thông minh, phân tích bố cục tài liệu và phân loại tài liệu không giám sát.
Limitations:
Cần phân tích sâu hơn về các loại và hiệu suất của các mô hình đa phương thức được sử dụng.
Có thể thiên vị một số loại tài liệu hoặc bố cục nhất định.
ĐáNh giá hiệu suất tổng quát trong các ứng dụng thực tế là cần thiết.
Cần phải xác minh khả năng mở rộng cho các tập dữ liệu tài liệu lớn.
👍