Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CRAFT Your Dataset: Generación de conjuntos de datos sintéticos específicos para cada tarea mediante la recuperación y el aumento de corpus

Created by
  • Haebom

Autor

Ingo Ziegler, Abdullatif Koksal , Desmond Elliott, Hinrich Schutze

Describir

Para abordar los desafíos de crear conjuntos de datos de alta calidad para tareas especializadas, este artículo propone Recuperación de Corpus y Aumento para Ajuste Fino (CRAFT), un método que genera conjuntos de datos sintéticos a partir de un pequeño número de capturas generadas por el usuario. CRAFT utiliza un corpus de rastreo web público a gran escala y la recuperación de documentos basada en similitud para encontrar documentos relevantes, y aprovecha un modelo de lenguaje gigante (LLM) ajustado por directivas para aumentar los documentos recuperados con ejemplos de tareas definidos por el usuario. Experimentos en cuatro tareas diversas (biología, medicina, respuesta a preguntas de sentido común (QA) y resumen) demuestran que CRAFT genera eficientemente grandes conjuntos de datos de entrenamiento específicos para cada tarea, superando o igualando un LLM estándar en la tarea de QA y logrando una mejora de preferencia de 46 puntos sobre los modelos entrenados con datos existentes seleccionados por humanos en la tarea de resumen. Además, supera a otros métodos de generación de conjuntos de datos sintéticos, como Self-Instruct y Evol-Instruct, y mantiene un rendimiento sólido incluso cuando varía la calidad de las primeras tomas.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para generar de manera eficiente conjuntos de datos de entrenamiento de gran escala y alta calidad utilizando solo una pequeña cantidad de datos.
Muestra aplicabilidad en varios campos (biología, medicina, control de calidad, resumen, etc.).
Garantiza un rendimiento y una robustez superiores en comparación con los métodos existentes.
Cree conjuntos de datos para tareas específicas incluso sin conocimientos especializados.
Limitations:
Puede depender del rendimiento de LLM. Las limitaciones de rendimiento de LLM también pueden afectar el rendimiento de CRAFT.
El control de calidad de las tomas iniciales es importante, ya que la calidad de las primeras tomas puede afectar el resultado.
La calidad y el sesgo de los datos de rastreo web pueden afectar los resultados. Es necesario abordar los problemas de fiabilidad y sesgo de los datos.
Puede ser necesaria la optimización para tareas específicas. Es necesario mejorar el rendimiento de la generalización en diversas tareas.
👍