Bài báo này đề cập đến vấn đề các gợi ý của người dùng từ các mô hình AI tạo sinh thường không rõ ràng, dẫn đến sự không khớp giữa ý định của người dùng và sự hiểu biết của mô hình. Để giải quyết vấn đề này, chúng tôi đề xuất một nguyên mẫu tác nhân chuyển đổi văn bản thành hình ảnh (T2I) có khả năng chủ động đặt câu hỏi khi không chắc chắn trong quá trình tạo văn bản thành hình ảnh (T2I), hiểu được sự không chắc chắn về ý định của người dùng và trình bày nó dưới dạng biểu đồ niềm tin có thể chỉnh sửa. Chúng tôi tiến hành các thử nghiệm trên ImageInWords, COCO và bộ dữ liệu DesignBench mới được các nhà nghiên cứu tạo ra, và chứng minh rằng tác nhân T2I được đề xuất đạt được điểm VQAScore cao hơn ít nhất 2 lần so với thế hệ T2I hiện có. Hơn nữa, các nghiên cứu có sự tham gia của con người cho thấy hơn 90% người dùng đánh giá tác nhân và biểu đồ niềm tin là hữu ích cho các tác vụ T2I của họ. Mã nguồn và DesignBench được mã nguồn mở trên GitHub.