Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Découverte de duplicatas explicables de manuscrits anciens, de taille grossière à fine

Created by
  • Haebom

Auteur

Chongsheng Zhang, Shuwen Wu, Yingqi Chen, Yi Men, Gaojuan Fan, Matthias A{\ss}enmacher, Christian Heumann, Jo ao Gama

Contour

Cet article présente un nouveau cadre d'identification des doublons dans les documents anciens. Plus précisément, nous concevons un cadre avancé de détection des doublons combinant la correspondance de points clés de bas niveau et la correspondance de contenu textuelle de haut niveau pour l'un des documents anciens, Oracle Bones (OB). Comparé aux méthodes existantes de recherche et de correspondance d'images basées sur le contenu, notre modèle atteint des performances de rappel similaires et un score de rang inverse moyen simplifié plus élevé, tout en offrant une efficacité de calcul bien plus rapide. Grâce à des applications pratiques, nous avons découvert plus de 60 nouvelles paires de doublons OB que les experts traditionnels n'avaient pas réussi à détecter depuis des décennies. Nous avons publié le code, le modèle et les résultats réels sur GitHub.

Takeaways, Limitations

Takeaways:
Un nouveau cadre efficace et précis pour identifier les doublons dans les documents anciens est présenté.
Démontrer l’utilité d’une approche qui combine des fonctionnalités de bas et de haut niveau.
Découvrez de nouveaux doublons et contribuez à la recherche archéologique et historique grâce à des applications concrètes.
Obtenez des performances améliorées (taux de rappel, score de rang inverse moyen, efficacité de calcul) par rapport aux méthodes existantes.
Limitations:
ÉTant donné que ce modèle est spécifique à Oracle Bones, son applicabilité à d’autres types de documents anciens peut être limitée.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du modèle et sa robustesse à différents types de redondance (par exemple, la redondance partielle).
Un examen supplémentaire par des experts est nécessaire pour vérifier l’exactitude des déterminations en double.
👍