Cet article analyse la consommation énergétique de sept modèles de génération texte-audio de pointe, basés sur la diffusion, qui convertissent le texte en audio. Nous évaluons l'impact de la modification des paramètres de génération lors de l'inférence sur la consommation énergétique et cherchons à trouver l'équilibre optimal entre qualité audio et consommation énergétique en considérant des solutions optimales de Pareto dans tous les modèles sélectionnés. Cela permet de mieux comprendre le compromis entre performances et impact environnemental, contribuant ainsi au développement de modèles audio génératifs plus performants.