Cet article souligne que les performances d'optimisation des modèles linguistiques à grande échelle (LLM) dépendent fortement de la composition du mélange de données d'entraînement. Or, le processus de sélection du mélange optimal est manuel et heuristique. Par conséquent, nous proposons TASKPGM, un cadre d'optimisation de mélange évolutif et fondé sur des principes, qui sélectionne des ratios de tâches continus en minimisant une fonction d'énergie à l'aide de champs aléatoires de Markov (MRF). TASKPGM modélise les relations entre les tâches à l'aide de différences comportementales, telles que la divergence de Jensen-Shannon et l'information mutuelle ponctuelle, calculées à partir de la distribution prédictive de modèles d'optimisation à tâche unique. Il fournit une solution complète sous contraintes de groupe et équilibre de manière démontrable la représentativité et la diversité entre les tâches. Il démontre des gains de performance empiriques constants avec des outils d'évaluation tels que MMLU et BIGBench sur Llama 2 et Mistral, ainsi que des garanties théoriques (notamment une faible sous-modularité pour les variantes à budget limité). Au-delà des performances, TASKPGM fournit des informations interprétables sur l'influence des tâches et la composition du mélange, ce qui en fait un outil puissant pour un réglage fin LLM efficace et robuste.