Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Annotation LLM axée sur l'utilité pour la récupération et la génération augmentée par la récupération

Created by
  • Haebom

Auteur

Hengran Zhang, Minghao Tang, Keping Bi, Jiafeng Guo, Shihao Liu, Daiting Shi, Dawei Yin, Xueqi Cheng

Contour

Cet article explore l'utilisation de modèles linguistiques à grande échelle (LLM) pour annoter l'utilité des documents et réduire le recours aux annotations manuelles coûteuses lors de l'apprentissage des systèmes de recherche et de génération de recherche augmentée (RAG). Afin de combler l'écart entre pertinence de la recherche et utilité générative, nous utilisons des LLM pour annoter l'utilité des documents. Afin d'exploiter efficacement plusieurs échantillons positifs par requête, nous proposons une nouvelle fonction de perte maximisant leur vraisemblance marginale agrégée. Nous utilisons le modèle Qwen-2.5-32B pour annoter l'utilité de l'ensemble de données MS MARCO et menons des expériences de recherche sur MS MARCO et BEIR, ainsi que des expériences RAG sur MS MARCO QA, NQ et HotpotQA. Nos résultats expérimentaux montrent que les annotations générées par les LLM améliorent les performances de recherche hors domaine et les résultats RAG par rapport aux modèles entraînés uniquement sur des annotations manuelles ou des sous-ensembles de métriques QA. De plus, nous obtenons des performances comparables à celles obtenues avec des annotations entièrement manuelles en combinant les annotations LLM avec 20 % des annotations manuelles. Cette étude présente une approche complète permettant d'exploiter les annotations LLM pour initialiser les systèmes d'assurance qualité sur de nouveaux corpus.

Takeaways, Limitations_

Takeaways:
L'annotation de la convivialité des documents à l'aide de LLM réduit la dépendance à l'annotation manuelle et permet la construction de systèmes d'assurance qualité rentables.
Les annotations LLM contribuent à améliorer les performances de recherche hors domaine et les performances RAG.
Des performances élevées peuvent être obtenues en combinant de petites quantités d’annotations manuelles avec des annotations LLM.
Nous présentons une méthode efficace pour initialiser un système d’assurance qualité pour un nouveau corpus.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer l’exactitude et la fiabilité des annotations LLM.
La validation de la généralisabilité des résultats à des LLM et des ensembles de données spécifiques est nécessaire.
D’autres expériences avec différents types de questions et d’ensembles de données sont nécessaires.
👍