TokenFlow là một bộ phân tích hình ảnh thống nhất, mới mẻ, giúp thu hẹp khoảng cách lâu dài giữa hiểu biết đa phương thức và tạo ảnh. Các nghiên cứu trước đây đã cố gắng tích hợp hai tác vụ này bằng một bộ mã hóa lượng tử hóa vector mục tiêu tái tạo (VQ) duy nhất. Tuy nhiên, chúng tôi nhận thấy rằng hiểu biết và tạo ảnh yêu cầu các mức độ chi tiết của thông tin hình ảnh về cơ bản là khác nhau. Điều này dẫn đến một sự đánh đổi đáng kể, dẫn đến hiệu suất kém, đặc biệt là đối với các tác vụ hiểu biết đa phương thức. TokenFlow giải quyết thách thức này bằng kiến trúc sổ mã kép sáng tạo, tách biệt việc học thuộc tính ngữ nghĩa và học thuộc tính ở cấp độ pixel thông qua một cơ chế ánh xạ được chia sẻ trong khi vẫn duy trì sự liên kết của chúng. Thiết kế này cung cấp quyền truy cập trực tiếp vào các biểu diễn ngữ nghĩa đa chiều, rất quan trọng để hiểu các tác vụ và các thuộc tính hình ảnh chi tiết, cần thiết cho việc tạo ảnh thông qua một chỉ mục được chia sẻ. Các thí nghiệm mở rộng đã chứng minh tính ưu việt của TokenFlow trên nhiều chiều. Tận dụng TokenFlow, chúng tôi đã đạt được LLaVA-1.5 13B đầu tiên vượt trội về hiệu suất hiểu biết đối với các đầu vào hình ảnh rời rạc, đạt mức cải thiện trung bình là 7,2%. Đối với việc tái tạo hình ảnh, chúng tôi đạt được điểm FID mạnh mẽ là 0,63 ở độ phân giải 384x384. Ngoài ra, TokenFlow đạt được hiệu suất tiên tiến trong việc tạo hình ảnh tự hồi quy với điểm GenEval là 0,55 ở độ phân giải 256 x 256, tương đương với SDXL.