Các phương pháp hiện có để chuyển đổi ngôn ngữ tự nhiên thành hình ảnh trực quan hoạt động như hộp đen, khiến người dùng khó hiểu được cơ sở thiết kế và cải thiện kết quả. Trong bài báo này, chúng tôi giải quyết vấn đề này bằng cách tích hợp suy luận Chuỗi suy nghĩ (CoT) vào quy trình NL2VIS. Đầu tiên, chúng tôi thiết kế một quy trình suy luận CoT toàn diện cho NL2VIS và phát triển một quy trình tự động bổ sung các bước suy luận có cấu trúc vào các tập dữ liệu hiện có. Thứ hai, chúng tôi giới thiệu tập dữ liệu nvBench-CoT, trình bày chi tiết quy trình suy luận từng bước từ các mô tả ngôn ngữ tự nhiên mơ hồ đến các hình ảnh trực quan cuối cùng, để giúp cải thiện hiệu suất mô hình. Cuối cùng, chúng tôi phát triển DeepVIS, một giao diện trực quan tương tác cho phép người dùng xem lại các bước suy luận, xác định lỗi và điều chỉnh kết quả trực quan để cải thiện chúng. Thông qua các đánh giá chuẩn định lượng, hai trường hợp sử dụng và nghiên cứu người dùng, chúng tôi chứng minh rằng khuôn khổ CoT nâng cao chất lượng của NL2VIS và cung cấp cho người dùng các bước suy luận sâu sắc.