Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Source2Synth: Generación y curación de datos sintéticos basados ​​en fuentes de datos reales

Created by
  • Haebom

Autor

Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli

Describir

Este artículo presenta Source2Synth, un novedoso enfoque que aprovecha la generación de datos sintéticos para mejorar el rendimiento de los modelos lingüísticos a gran escala (LLM) sin necesidad de una costosa anotación manual. Source2Synth genera datos sintéticos a partir de fuentes de datos reales y mejora la calidad de los datos mediante la incorporación de un paso de inferencia intermedio. Mejora la calidad del conjunto de datos eliminando artefactos de baja calidad según la capacidad de respuesta. Demostramos mejoras de rendimiento al aplicar este enfoque a dos tareas que utilizan diversos tipos de datos: la respuesta a preguntas de múltiples pasos (MHQA), que evalúa las habilidades de razonamiento complejo mediante documentos, y la respuesta a preguntas de tabla (TQA), que evalúa la usabilidad de la herramienta mediante tablas. Logramos mejoras de rendimiento del 25,51 % en la tarea TQA de WikiSQL y del 22,57 % en la tarea MHQA de HotpotQA, en comparación con los modelos de referencia existentes.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para mejorar eficazmente el rendimiento de LLM mediante la generación de datos sintéticos basados ​​en fuentes de datos reales.
Mejore la calidad de los datos incluyendo pasos de inferencia intermedios y eliminando artefactos de baja calidad.
Demuestra aplicabilidad a varios tipos de datos y tareas (MHQA, TQA).
Se lograron mejoras de rendimiento significativas en WikiSQL y HotpotQA.
Limitations:
Se necesitan más experimentos y análisis sobre la escalabilidad de Source2Synth.
Identificar las limitaciones en la capacidad de generalización para varios tipos de datos y tareas y mejorarlas.
Se necesitan más investigaciones para mejorar la objetividad y optimizar los criterios para eliminar productos de baja calidad.
Es necesario realizar un análisis para determinar el impacto del sesgo en las fuentes de datos utilizadas en los resultados.
👍