[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DRAGON : Benchmark RAG dynamique sur l'actualité

Created by
  • Haebom

Auteur

Fedor Chernogorskii, Sergei Averkiev, Liliya Kudraleeva, Zaven Martirosian, Maria Tikhonova, Valentin Malykh, Alena Fenogenova

Contour

Dans cet article, nous présentons DRAGON (Dynamic RAG Benchmark On News), le premier benchmark RAG (Retrieval-Augmented Generation) dynamique pour la langue russe. DRAGON s'appuie sur un corpus d'actualités et de documents publics russes régulièrement mis à jour et fournit une évaluation complète des composants de recherche et de génération. Il génère automatiquement des questions à l'aide d'un graphe de connaissances généré à partir du corpus et extrait quatre types de questions clés selon des modèles de sous-graphes. Nous publions un cadre d'évaluation complet, comprenant un pipeline de génération automatique de questions, des scripts d'évaluation (réutilisables dans toutes les langues et environnements multilingues), des données de benchmark, ainsi qu'un classement public pour encourager la participation et la comparaison de la communauté. Il surmonte les limites des benchmarks RAG statiques centrés sur l'anglais existants et fournit une ressource pour évaluer les systèmes RAG russes qui reflète la nature dynamique des environnements réels.

Takeaways, Limitations

Takeaways:
Fournit la première référence dynamique pour l'évaluation des systèmes RAG russes
Reflète les environnements du monde réel sur la base d'un corpus d'actualités régulièrement mis à jour
Prise en charge complète de l'évaluation des composants de recherche et de génération
Assurer la réutilisabilité et l'extensibilité grâce à la publication de pipelines de génération automatique de questions et de scripts d'évaluation.
Encouragez l'engagement et la comparaison de la communauté grâce à des classements publics
Limitations:
Actuellement concentré uniquement sur le russe, des recherches supplémentaires sont nécessaires pour étendre ce projet à d'autres langues.
Il est possible que le corpus d’informations contienne des données biaisées.
Une validation supplémentaire de la précision et de la diversité de la génération automatique de questions est nécessaire.
Des plans de maintenance et de mises à jour continues de DRAGON sont nécessaires.
👍