Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Este artículo explora el aprovechamiento de modelos lingüísticos a gran escala (LLM) para anotar la utilidad de los documentos y reducir la dependencia de costosas anotaciones manuales en sistemas de entrenamiento de recuperación y generación de recuperación aumentada (RAG). Para cerrar la brecha entre la relevancia de la recuperación y la utilidad generativa, utilizamos LLM para anotar la utilidad de los documentos. Para utilizar eficazmente múltiples muestras positivas por consulta, proponemos una novedosa función de pérdida que maximiza su verosimilitud marginal agregada. Utilizamos el modelo Qwen-2.5-32B para anotar el conjunto de datos MS MARCO en función de su utilidad y realizamos experimentos de recuperación en MS MARCO y BEIR, así como experimentos RAG en MS MARCO QA, NQ y HotpotQA. Nuestros resultados experimentales muestran que las anotaciones generadas por LLM mejoran el rendimiento de la recuperación fuera del dominio y los resultados RAG en comparación con los modelos entrenados únicamente con anotaciones manuales o subconjuntos de métricas de QA. Además, logramos un rendimiento comparable al de las anotaciones totalmente manuales al combinar las anotaciones LLM con el 20 % de las anotaciones manuales. Este estudio presenta un enfoque integral para aprovechar las anotaciones LLM para inicializar sistemas de control de calidad en nuevos corpus.
Takeaways, Limitations
•
Takeaways:
◦
La anotación de usabilidad de documentos mediante LLM reduce la dependencia de la anotación manual y permite la construcción de sistemas de control de calidad rentables.
◦
Las anotaciones LLM contribuyen a mejorar el rendimiento de la búsqueda fuera del dominio y el rendimiento de RAG.
◦
Se puede lograr un alto rendimiento combinando pequeñas cantidades de anotaciones manuales con anotaciones LLM.
◦
Presentamos un método efectivo para inicializar un sistema de control de calidad para un nuevo corpus.
•
Limitations:
◦
Se necesitan más investigaciones para determinar la precisión y confiabilidad de las anotaciones LLM.
◦
Es necesaria la validación de la generalización de los resultados a LLM y conjuntos de datos específicos.
◦
Se necesitan más experimentos con diferentes tipos de preguntas y conjuntos de datos.