Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AutoSchemaKG : construction autonome de graphes de connaissances par induction de schémas dynamiques à partir de corpus Web

Created by
  • Haebom

Auteur

Jiaxin Bai, Wei Fan, Qi Hu, Qing Zong, Chunyang Li, Hong Ting Tsang, Hongyu Luo, Yauwai Yim, Haoyu Huang, Xiao Zhou, Feng Qin, Tianshi Zheng, Xi Peng, Xin Yao, Huiwen Yang, Leijie Wu, Yi Ji, Gong Zhang, Renhai Chen, Yangqiu Song

Contour

AutoSchemaKG est un framework pour la génération de graphes de connaissances entièrement autonome, sans schéma prédéfini. Il exploite des modèles de langage à grande échelle pour extraire des triplets de connaissances du texte et induire simultanément un schéma complet, modélisant entités et événements, et organisant les instances en catégories sémantiques par conceptualisation. En traitant plus de 50 millions de documents, nous avons construit un graphe de connaissances, ATLAS (Automated Triple Linking And Schema Induction), comportant plus de 900 millions de nœuds et 5,9 milliards d'arêtes. Cette approche surpasse les benchmarks de pointe pour les tâches de questions-réponses en plusieurs étapes et améliore le réalisme du LLM. Plus précisément, l'induction de schémas atteint un alignement sémantique de 92 % avec les schémas générés par l'homme sans intervention manuelle, démontrant qu'un graphe de connaissances d'un milliard d'unités avec des schémas induits dynamiquement peut compléter efficacement les connaissances paramétriques des modèles de langage à grande échelle.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre permettant de construire des graphes de connaissances de manière totalement autonome sans schéma prédéfini.
Extraction simultanée de triples connaissances et dérivation de schémas à l'aide de modèles de langage à grande échelle.
Création d'un graphe de connaissances à l'échelle d'un milliard d'unités, ATLAS, pour améliorer les performances de réponse aux questions en plusieurs étapes et renforcer la véracité du LLM.
Les schémas dérivés automatiquement atteignent un alignement sémantique élevé (92 %) avec les schémas générés par l'homme.
Nous présentons le potentiel des graphes de connaissances avec des schémas dérivés dynamiquement pour compléter efficacement les connaissances paramétriques des modèles de langage à grande échelle.
Limitations:
Limitations n'est pas explicitement mentionné dans l'article. Des recherches supplémentaires pourraient être nécessaires pour améliorer la précision de la dérivation du schéma et vérifier son applicabilité à différents types de données. De plus, une évaluation plus approfondie de l'exhaustivité et de la fiabilité du graphe de connaissances généré pourrait être nécessaire.
👍