Dans cet article, nous abordons la difficulté d'anticiper les différents problèmes rencontrés par un modèle prédictif après son déploiement. Au lieu de l'approche réactive et récursive traditionnelle (déploiement de modèle, exploration de données, réentraînement), nous développons un processus de découverte ex ante à longue traîne. En imaginant des données supplémentaires pendant l'entraînement, nous développons un signal à longue traîne général basé sur un modèle, qui contient l'incertitude épistémique d'une formulation différentiable à passage unique, capable d'identifier les entrées rares ou difficiles sans affecter les paramètres du modèle ni les performances prédictives. Nous exploitons ces signaux pour générer des données d'entraînement supplémentaires à partir d'un modèle de diffusion latente grâce à un processus appelé guidage à longue traîne (LTG). Il est important de noter que nous effectuons le LTG sans réentraîner le modèle de diffusion ou le modèle prédictif, et sans exposer le modèle prédictif à des états de diffusion intermédiaires. Les données générées par le LTG présentent des changements sémantiquement significatifs, conduisent à des améliorations significatives de la généralisation sur plusieurs benchmarks de classification d'images et peuvent être analysées par le modèle vision-langage (VLM) pour découvrir, expliquer textuellement et combler de manière proactive les lacunes conceptuelles des modèles prédictifs déployés.