Cet article présente un nouveau cadre d'analyse comparative tenant compte des infrastructures pour quantifier l'impact environnemental de 30 modèles de langage à grande échelle (LLM) de pointe déployés dans des centres de données commerciaux. Nous construisons ce cadre en combinant les données de performance des API publiques, le drainage environnemental régional et les inférences statistiques sur les configurations matérielles. Nous classons également les modèles en fonction de leurs performances par rapport au coût environnemental à l'aide d'une analyse d'enveloppe de données d'efficacité croisée (DEA). Nous constatons que o3 et DeepSeek-R1 sont les modèles les plus énergivores, consommant plus de 33 Wh, soit plus de 70 fois la consommation de GPT-4.1 nano. En revanche, Claude-3.7 Sonnet est classé comme le modèle le plus éco-efficient. Alors que GPT-4o ne consomme que 0,42 Wh pour une seule requête courte, son impact environnemental annuel est significatif lorsqu'il est porté à 700 millions de requêtes par jour. Cela inclut la consommation d'électricité de 35 000 foyers américains, l'évaporation d'eau douce équivalente aux besoins annuels en eau potable de 1,2 million de personnes et les émissions de carbone nécessaires pour compenser une forêt de la taille de Chicago. Ces résultats mettent en évidence le paradoxe suivant : si l'IA devient moins chère et plus rapide, son adoption mondiale entraîne une consommation disproportionnée des ressources. Cette étude propose une méthodologie standardisée et empirique pour évaluer la durabilité des déploiements LLM, jetant ainsi les bases d'une future responsabilité environnementale dans le développement de l'IA et des normes de durabilité.