Bài báo này nhấn mạnh rằng mặc dù có những tiến bộ trong khả năng tạo hình ảnh của các mô hình hiểu biết và tạo đa phương thức tích hợp, vẫn còn những khoảng cách đáng kể trong việc tuân theo hướng dẫn và bảo toàn chi tiết so với các hệ thống kết hợp chặt chẽ hiểu biết và tạo hình, chẳng hạn như GPT-4. Do đó, bài báo này khám phá cách cải thiện việc tạo văn bản thành hình ảnh (T2I) bằng cách tận dụng lý luận xen kẽ. Để đạt được điều này, chúng tôi đề xuất một khuôn khổ Tạo sinh suy luận tương tác (IRG) xen kẽ giữa lý luận dựa trên văn bản và tổng hợp hình ảnh. IRG trước tiên tạo ra các hình ảnh ban đầu bằng cách tạo ra lý luận dựa trên văn bản, sau đó phản ánh kết quả để nâng cao chi tiết, chất lượng hình ảnh và tính thẩm mỹ trong khi vẫn bảo toàn ý nghĩa. Để đào tạo IRG hiệu quả, chúng tôi đề xuất Học tạo sinh suy luận tương tác (IRGL), nhằm mục đích củng cố các giai đoạn lý luận và tạo hình ban đầu và đảm bảo phản ánh văn bản chất lượng cao và triển khai chính xác trong các hình ảnh tiếp theo. Sử dụng tập dữ liệu IRGL-300K, bao gồm sáu chế độ học phân tích, chúng tôi bắt đầu với một mô hình cơ sở tích hợp tạo ra các đầu ra văn bản thành hình ảnh tương tác. Thông qua hai giai đoạn đào tạo, chúng tôi xây dựng khả năng suy luận và phản xạ mạnh mẽ, đồng thời tinh chỉnh hiệu quả đường ống IRG trên toàn bộ dữ liệu quỹ đạo suy nghĩ thành hình ảnh. Kết quả thử nghiệm cho thấy hiệu suất tăng tuyệt đối từ 5-10 điểm trên GenEval, WISE, TIIF, GenAI-Bench và OneIG-EN, cũng như cải thiện đáng kể chất lượng hình ảnh và độ trung thực chi tiết. Mã, trọng số mô hình và tập dữ liệu sẽ được công bố.