Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Recuperación alineada con la referencia y respuesta a preguntas aumentadas sobre documentos propietarios heterogéneos

Created by
  • Haebom

Autor

Nayoung Choi, Grace Byun, Andrew Chung, Ellie S. Paek, Shinsun Lee, Jinho D. Choi

Describir

Este artículo propone un sistema de preguntas y respuestas (QA) basado en la Generación Aumentada por Recuperación (RAG) para abordar los desafíos del acceso a la información debido al gran volumen y la naturaleza no estructurada de los documentos corporativos internos. Tomando como ejemplo los documentos de pruebas de choque de la industria automotriz, nos centramos en procesar diversos tipos de datos, mantener la confidencialidad de los mismos y garantizar la trazabilidad entre las respuestas generadas y los documentos originales. El sistema propuesto consta de un flujo de datos que transforma diversos tipos de documentos en un corpus estructurado y pares de QA, una arquitectura local que preserva la privacidad y un comparador de referencias ligero que vincula las respuestas con el contenido de apoyo. Su aplicación en la industria automotriz demuestra mejoras en la precisión factual, la información y la usabilidad en comparación con los sistemas existentes.

Takeaways, Limitations

Takeaways:
Sugerir la posibilidad de resolver problemas de recuperación de documentos corporativos internos y de acceso a la información mediante el uso de un sistema de control de calidad basado en RAG.
Presentamos un método para procesar eficazmente varios tipos de datos (multimodal).
Una propuesta para establecer un sistema de control de calidad manteniendo la confidencialidad de los datos corporativos internos.
Mejore la confiabilidad garantizando la trazabilidad de las respuestas generadas.
Alta aplicabilidad no sólo a la industria automotriz sino también a otras industrias.
Limitations:
La evaluación del rendimiento del sistema propuesto se limita a una industria específica (automotriz) y a un conjunto de datos limitado. Se requiere más investigación para determinar su generalización a otras industrias y conjuntos de datos.
Falta de análisis de los costos y recursos necesarios para construir y operar el sistema.
Se necesita una revisión más profunda para determinar la objetividad y confiabilidad de las evaluaciones realizadas por jueces de LLM.
Falta de consideración por la escalabilidad del sistema y posible degradación del rendimiento para grandes conjuntos de datos.
👍