Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Regroupement non supervisé de documents et de modèles à l'aide d'intégrations multimodales

Created by
  • Haebom

Auteur

Phillipe R. Sampaio, Hélène Maxcici

Contour

Cet article propose une nouvelle méthode de clustering non supervisé de documents utilisant des intégrations multimodales exploitant diverses modalités (texte, informations de mise en page et caractéristiques visuelles). Au-delà de la simple classification par type de document (par exemple, factures, bons de commande), nous cherchons à obtenir une compréhension plus fine des documents en distinguant différents modèles au sein d'un même type de document. Nous évaluons les performances des intégrations générées à l'aide de modèles multimodaux pré-entraînés de pointe, notamment SBERT, LayoutLMv1, LayoutLMv3, DiT, Donut, ColPali, Gemma3 et InternVL3, en les appliquant à des algorithmes de clustering tels que $k$-Means, DBSCAN, HDBSCAN avec $k$-NN et BIRCH. Les résultats expérimentaux démontrent le potentiel des intégrations multimodales pour améliorer les performances du clustering de documents, suggérant leur potentiel pour diverses applications, notamment le traitement intelligent de documents, l'analyse de la mise en page de documents et la classification non supervisée de documents. De plus, nous analysons les forces et les faiblesses de divers modèles multimodaux et suggérons des orientations de recherche futures.

Takeaways, Limitations

Takeaways:
Démonstration de l'efficacité du regroupement de documents non supervisé à l'aide d'intégrations multimodales.
Une nouvelle approche pour la compréhension et la classification granulaires des documents.
Fournir des lignes directrices pour la sélection du modèle optimal grâce à une analyse comparative des performances de divers modèles multimodaux.
Il présente des applications potentielles dans divers domaines tels que le traitement intelligent des documents, l'analyse de la mise en page des documents et la classification non supervisée des documents.
Limitations:
Une analyse plus approfondie des types et des performances des modèles multimodaux utilisés est nécessaire.
Possible biais envers certains types de documents ou de mises en page.
Une évaluation des performances de généralisation dans les applications du monde réel est nécessaire.
Une vérification de l’évolutivité pour les grands ensembles de données de documents est requise.
👍