Para abordar los desafíos de crear conjuntos de datos de alta calidad para tareas especializadas, este artículo propone Recuperación de Corpus y Aumento para Ajuste Fino (CRAFT), un método que genera conjuntos de datos sintéticos a partir de un pequeño número de capturas generadas por el usuario. CRAFT utiliza un corpus de rastreo web público a gran escala y la recuperación de documentos basada en similitud para encontrar documentos relevantes, y aprovecha un modelo de lenguaje gigante (LLM) ajustado por directivas para aumentar los documentos recuperados con ejemplos de tareas definidos por el usuario. Experimentos en cuatro tareas diversas (biología, medicina, respuesta a preguntas de sentido común (QA) y resumen) demuestran que CRAFT genera eficientemente grandes conjuntos de datos de entrenamiento específicos para cada tarea, superando o igualando un LLM estándar en la tarea de QA y logrando una mejora de preferencia de 46 puntos sobre los modelos entrenados con datos existentes seleccionados por humanos en la tarea de resumen. Además, supera a otros métodos de generación de conjuntos de datos sintéticos, como Self-Instruct y Evol-Instruct, y mantiene un rendimiento sólido incluso cuando varía la calidad de las primeras tomas.