En este artículo, exploramos el rol de la alineación de datos, un aspecto a menudo ignorado de la calidad de los datos, en contraste con la visión convencional sobre la importancia del tamaño de los datos en el entrenamiento de modelos de lenguaje a gran escala (LLM). Utilizamos coeficientes de alineación basados en Task2Vec para medir cuantitativamente la similitud entre dos conjuntos de datos y analizar el impacto de la alineación entre los datos de entrenamiento y evaluación en el rendimiento. Realizamos experimentos controlados en dos entornos: 1. el impacto de aumentar el coeficiente de alineación entre varios conjuntos de datos de preentrenamiento (pt) y conjuntos de datos de evaluación, y 2. el impacto de aumentar el coeficiente de alineación entre conjuntos de datos de ajuste fino (ft) específicos del dominio y conjuntos de datos de evaluación específicos del dominio. Mediante una tarea específica del dominio denominada formulación automática (una tarea de traducción automática entre lenguaje natural y código para verificación formal), encontramos una correlación negativa fuerte y predecible entre el coeficiente de alineación de los datos de entrenamiento y evaluación de un modelo y la pérdida/perplejidad del modelo. Esto demuestra la importancia de la alineación de datos sobre la cantidad de datos, especialmente para subtareas especializadas como la formulación automática, y sugiere una reevaluación de los enfoques de capacitación LLM.