Cet article aborde la prolifération croissante de modèles de langage étendus (LLM) de 1 800 milliards de paramètres, tels que GPT-4, nécessitant une refonte fondamentale des architectures de centres de données afin de garantir évolutivité, efficacité et rentabilité. Cette étude présente un cadre de co-conception complet qui explore de manière collaborative les FLOPS, la bande passante et la capacité des HBM, différentes topologies de réseau (optique à deux étages ou FullFlat), la taille des domaines d'évolutivité et les stratégies courantes de traitement/optimisation parallèle employées dans les LLM. Nous présentons et évaluons une architecture réseau FullFlat, qui offre une connectivité uniforme à haut débit et à faible latence entre tous les nœuds, démontrant ainsi son impact transformateur sur les performances et l'évolutivité. Grâce à des analyses de sensibilité détaillées, nous quantifions les avantages du chevauchement des calculs et des communications, en exploitant les agrégats accélérés par le matériel, en évoluant l'extension des domaines et en augmentant la capacité mémoire. Cette étude révèle l'impact des choix de conception système sur l'utilisation des FLOPS du modèle (MFU = FLOPS du modèle par jeton * jetons observés par seconde / FLOPS maximum matériel) et le débit global des LLM à transformateurs, qu'ils soient clairsemés (mixtes et experts) ou denses. Pour notre étude de co-conception, nous avons utilisé un outil de modélisation analytique des performances capable de prédire les temps d'exécution des LLM avec une précision de 10 % par rapport aux mesures réelles. Nos résultats fournissent des informations exploitables et une feuille de route pratique pour la conception de centres de données d'IA prenant en charge efficacement les modèles de paramètres de réservoir, réduisant la complexité de l'optimisation et soutenant l'évolution rapide des capacités d'IA.