Bài báo này trình bày một nghiên cứu cải tiến và áp dụng các kỹ thuật đảo ngược đặc trưng để hiểu nguyên lý hoạt động của mạng nơ-ron sâu, đặc biệt là các mô hình thị giác dựa trên Biến áp (Detection Transformer và Vision Transformer). Chúng tôi đề xuất một kỹ thuật biến đổi mô-đun mới giúp nâng cao hiệu quả của các kỹ thuật đảo ngược đặc trưng hiện có. Thông qua phân tích định tính và định lượng các hình ảnh được tái tạo, chúng tôi hiểu rõ hơn về biểu diễn nội tại của mô hình. Cụ thể, chúng tôi phân tích cách mô hình mã hóa hình dạng và chi tiết hình ảnh theo ngữ cảnh, mối tương quan giữa các lớp và độ bền của nó trước các thay đổi màu sắc. Mã thử nghiệm được công khai.