Cet article présente des recherches visant à identifier les vulnérabilités, les biais et les composants malveillants dans la chaîne d'approvisionnement des modèles linguistiques à grande échelle (LLM), à améliorer l'équité des modèles et à garantir la conformité aux cadres réglementaires. Étant donné que les LLM existants abordent inévitablement ces problèmes en raison de leur dépendance à des modèles de base, des modèles pré-entraînés et des jeux de données externes, nous étudions la chaîne d'approvisionnement des LLM en nous concentrant sur les relations entre modèles et jeux de données. À cette fin, nous concevons une méthodologie pour collecter systématiquement les informations de la chaîne d'approvisionnement des LLM et construisons un nouveau graphe hétérogène orienté (402 654 nœuds et 462 524 arêtes) représentant les relations entre modèles et jeux de données. Ce graphe est ensuite utilisé pour effectuer diverses analyses et produire plusieurs résultats intéressants.