Este artículo presenta Source2Synth, un novedoso enfoque que aprovecha la generación de datos sintéticos para mejorar el rendimiento de los modelos lingüísticos a gran escala (LLM) sin necesidad de una costosa anotación manual. Source2Synth genera datos sintéticos a partir de fuentes de datos reales y mejora la calidad de los datos mediante la incorporación de un paso de inferencia intermedio. Mejora la calidad del conjunto de datos eliminando artefactos de baja calidad según la capacidad de respuesta. Demostramos mejoras de rendimiento al aplicar este enfoque a dos tareas que utilizan diversos tipos de datos: la respuesta a preguntas de múltiples pasos (MHQA), que evalúa las habilidades de razonamiento complejo mediante documentos, y la respuesta a preguntas de tabla (TQA), que evalúa la usabilidad de la herramienta mediante tablas. Logramos mejoras de rendimiento del 25,51 % en la tarea TQA de WikiSQL y del 22,57 % en la tarea MHQA de HotpotQA, en comparación con los modelos de referencia existentes.