En este artículo, demostramos que el rendimiento del ajuste fino de los modelos de lenguaje a gran escala (LLM) depende en gran medida de la composición de la mezcla de datos de entrenamiento, pero la selección de la proporción óptima de la mezcla de datos es un proceso manual y heurístico. Por lo tanto, presentamos TASKPGM, un marco sistemático y escalable que selecciona proporciones de tareas continuas minimizando una función de energía sobre un campo aleatorio de Markov (MRF). TASKPGM modela las relaciones entre tareas utilizando diferencias de comportamiento como la divergencia de Jensen-Shannon y la información mutua puntual calculada a partir de la distribución predictiva de modelos de ajuste fino de una sola tarea. Proporciona soluciones de forma cerrada bajo restricciones de grupo y garantiza un equilibrio de representatividad y diversidad entre las tareas. Muestra mejoras consistentes en el rendimiento empírico en Llama 2 y Mistral, así como en conjuntos de evaluación como MMLU y BIGBench, lo que proporciona información interpretable sobre la influencia de la tarea y la composición de la mezcla.