Cet article présente un nouveau cadre de pré-entraînement continu , MachineLearningLM , pour relever le défi de l'apprentissage de modèles de langage à grande échelle (LLM) à partir d'un grand nombre d'exemples contextuels dans des tâches d'apprentissage automatique (ML) traditionnelles . MachineLearningLM pré-entraîne les LLM à l'aide de tâches ML générées à partir de millions de modèles causaux structurés (SCM). Plus précisément, il utilise des forêts aléatoires pour intégrer des stratégies de prise de décision basées sur des arbres dans les LLM, améliorant ainsi la robustesse de la modélisation numérique. Il utilise également des invites efficaces en jetons pour augmenter le nombre d'exemples par fenêtre contextuelle d'un facteur 3 à 6 et améliore le débit jusqu'à 50 fois grâce à l'inférence par lots. Malgré sa petite configuration basée sur Qwen-2.5-7B-Instruct, il surpasse les modèles de base LLM robustes existants d'une moyenne de 15 % sur la classification de données tabulaires hors distribution dans divers domaines (finance, physique, biologie et médecine), démontrant une augmentation monotone de la précision à mesure que le nombre d'exemples contextuels augmente. De plus, il atteint une performance de 75,4% sur MMLU, maintenant une compétence conversationnelle générale.