Cet article souligne les difficultés d'évaluation des modèles linguistiques à grande échelle (MLH) et les limites des méthodes d'analyse comparative automatisées existantes (manque de corrélation avec les évaluations humaines). Il propose une nouvelle arène d'évaluation, l'arène de l'énergie générative (AEG), comme alternative à l'arène d'évaluation ouverte participative des utilisateurs (l'arène LM), qui inclut des informations sur la consommation d'énergie. Dans l'AEG, les utilisateurs comparent les réponses de deux modèles et les évaluent, ainsi que les informations sur la consommation d'énergie de chaque modèle. Les premiers résultats montrent que pour la plupart des questions, les utilisateurs ont tendance à préférer des modèles plus petits et plus économes en énergie lorsqu'ils sont conscients de leur consommation d'énergie. Cela suggère que le coût et la consommation d'énergie supplémentaires d'un grand modèle performant ne contribuent pas à améliorer la qualité des réponses perçues par les utilisateurs.