Este artículo aborda la creciente proliferación de Modelos de Lenguaje Grandes (LLM) de 1,8 billones de parámetros, como GPT-4, lo que exige un replanteamiento fundamental de las arquitecturas de los centros de datos para garantizar la escalabilidad, la eficiencia y la rentabilidad. Este estudio presenta un marco integral de codiseño que explora colaborativamente los FLOPS, el ancho de banda y la capacidad de los HBM, diversas topologías de red (óptica de dos etapas vs. FullFlat), el escalado de tamaños de dominio y las estrategias comunes de procesamiento/optimización paralela empleadas en los LLM. Presentamos y evaluamos una arquitectura de red FullFlat, que proporciona conectividad uniforme de alto ancho de banda y baja latencia entre todos los nodos, demostrando su impacto transformador en el rendimiento y la escalabilidad. Mediante análisis de sensibilidad detallados, cuantificamos los beneficios de la superposición computacional y de comunicación, aprovechando los agregados acelerados por hardware, el escalado de la expansión del dominio y el aumento de la capacidad de memoria. Este estudio revela cómo las decisiones de diseño del sistema afectan la utilización de FLOPS del modelo (MFU = FLOPS del modelo por token * tokens observados por segundo / FLOPS máximos del hardware) y el rendimiento general en LLM basados en transformadores, tanto dispersos (mixtos-expertos) como densos. Para nuestro estudio de codiseño, utilizamos una herramienta analítica de modelado del rendimiento capaz de predecir los tiempos de ejecución de LLM con una precisión del 10 % respecto a las mediciones reales. Nuestros hallazgos proporcionan información práctica y una hoja de ruta para diseñar centros de datos de IA que admitan eficientemente los modelos de parámetros de tanques, reduzcan la complejidad de la optimización y sostengan el rápido avance de las capacidades de IA.