Este artículo presenta una investigación para identificar vulnerabilidades, sesgos y componentes maliciosos en la cadena de suministro de modelos lingüísticos a gran escala (LLM), mejorar la equidad de los modelos y garantizar el cumplimiento de los marcos regulatorios. Dado que los LLM existentes inevitablemente abordan estos problemas debido a su dependencia de modelos base, modelos preentrenados y conjuntos de datos externos, estudiamos la cadena de suministro de LLM, centrándonos en las relaciones entre modelos y conjuntos de datos. Para ello, diseñamos una metodología para recopilar sistemáticamente información de la cadena de suministro de LLM y construir un novedoso grafo heterogéneo dirigido (402 654 nodos y 462 524 aristas) que representa las relaciones entre modelos y conjuntos de datos. Este grafo se utiliza posteriormente para realizar diversos análisis y obtener resultados interesantes.