Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Récupération alignée sur les références - Réponse aux questions augmentée sur des documents propriétaires hétérogènes

Created by
  • Haebom

Auteur

Nayoung Choi, Grace Byun, Andrew Chung, Ellie S. Paek, Shinsun Lee, Jinho D. Choi

Contour

Cet article propose un système de questions-réponses (QA) basé sur la génération augmentée de récupération (RAG) pour répondre aux défis d'accès à l'information liés au volume important et à la nature non structurée des documents internes des entreprises. En prenant comme exemple des documents de crash-tests issus de l'industrie automobile, nous nous concentrons sur le traitement de divers types de données, la préservation de la confidentialité des données et la traçabilité entre les réponses générées et les documents originaux. Pour y parvenir, nous présentons le cadre RAG-QA, qui comprend un pipeline de données transformant différents types de documents en un corpus structuré et des paires de QA, une architecture interne préservant la confidentialité et un outil de mise en correspondance de références léger reliant les réponses au contenu d'appui. Nos résultats expérimentaux démontrent des améliorations en termes de précision factuelle, d'informativité et de convivialité par rapport aux systèmes existants lorsqu'ils sont appliqués à l'industrie automobile.

Takeaways, Limitations

Takeaways:
Présentation d'un cadre RAG-QA efficace pour l'utilisation des documents internes de l'entreprise.
Mise en œuvre de fonctions permettant de traiter différents types de données (multimodales) et de préserver la confidentialité
Fiabilité améliorée en assurant la traçabilité des réponses générées
Suggérant le potentiel d’amélioration de l’accessibilité à l’information et de l’efficacité de la prise de décision dans diverses industries, y compris l’industrie automobile.
Fiabilité améliorée grâce à la mesure des performances par des évaluateurs humains et LLM
Limitations:
Le cadre proposé est spécialisé dans l’industrie automobile et nécessite une validation supplémentaire lorsqu’il est appliqué à d’autres industries.
Il convient de prendre en compte les coûts et la consommation de ressources liés à la construction et à la maintenance du système.
ÉVolutivité et dégradation potentielle des performances pour le traitement de données à grande échelle
Un examen plus approfondi de la fiabilité des évaluateurs LLM est nécessaire.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation pour différents types de données multimodales.
👍