Cet article aborde le problème du manque de clarté des invites utilisateur issues des modèles d'IA générative, ce qui entraîne un décalage entre l'intention de l'utilisateur et la compréhension du modèle. Pour résoudre ce problème, nous proposons un prototype d'agent de conversion de texte en image (T2I) qui pose activement des questions en cas d'incertitude lors de la génération de texte en image (T2I), comprend l'incertitude liée à l'intention de l'utilisateur et la présente sous la forme d'un graphe de croyances modifiable. Nous menons des expériences sur ImageInWords, COCO et un jeu de données DesignBench récemment créé par les chercheurs, et montrons que l'agent T2I proposé atteint un score VQAScore au moins deux fois supérieur à celui des générations T2I existantes. De plus, des études sur des participants humains montrent que plus de 90 % des utilisateurs ont jugé l'agent et le graphe de croyances utiles pour leurs tâches T2I. Le code et DesignBench sont disponibles en open source sur GitHub.