Las redes 6G están diseñadas para soportar descargas de modelos de IA bajo demanda y satisfacer las diversas necesidades de inferencia de los usuarios. Al prealmacenar en caché los modelos en nodos de borde, los usuarios pueden recuperar los modelos solicitados para la inferencia de IA en el dispositivo con baja latencia. Sin embargo, el tamaño significativo de los modelos de IA actuales plantea desafíos significativos para el almacenamiento en caché de borde dada la capacidad de almacenamiento limitada, y el servicio simultáneo de modelos heterogéneos a través de canales inalámbricos también es un desafío. Para abordar estos desafíos, proponemos un sistema de almacenamiento y descarga de modelos de IA de grano fino que aprovecha la reutilización de parámetros derivada de la práctica común de ajustar modelos específicos de la tarea utilizando parámetros fijos de modelos compartidos preentrenados. Este sistema almacena en caché selectivamente bloques de parámetros del modelo (PB) en nodos de borde, eliminando el almacenamiento redundante de parámetros reutilizables en diferentes modelos almacenados en caché. Además, al incorporar la transmisión multipunto coordinada (CoMP), mejoramos la utilización del espectro del enlace descendente al servir simultáneamente PB reutilizables a múltiples usuarios. En este esquema, formulamos el problema de minimizar la latencia de descarga del modelo mediante la optimización conjunta del almacenamiento en caché de PB, la migración (entre nodos de borde) y la formación de haz de difusión. Para abordar este problema, desarrollamos un marco de aprendizaje multiagente distribuido que facilita la colaboración al permitir que los nodos de borde aprendan explícitamente la interacción entre sus acciones. Además, proponemos un enfoque de aumento de datos que genera de forma adaptativa muestras de entrenamiento sintéticas mediante un modelo predictivo para aumentar la eficiencia de las muestras y acelerar el aprendizaje de políticas. Tanto el análisis teórico como los experimentos de simulación demuestran el excelente rendimiento de convergencia del marco de aprendizaje propuesto.