Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

TokenFlow: Công cụ phân tích hình ảnh thống nhất để hiểu và tạo đa phương thức

Created by
  • Haebom

Tác giả

Liao Qu, Huichao Zhang, Yiheng Liu, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Daniel K. Du, Zehuan Yuan, Xinglong Wu

Phác thảo

TokenFlow là một bộ phân tích hình ảnh thống nhất, mới mẻ, giúp thu hẹp khoảng cách lâu dài giữa hiểu biết đa phương thức và tạo ảnh. Các nghiên cứu trước đây đã cố gắng tích hợp hai tác vụ này bằng một bộ mã hóa lượng tử hóa vector mục tiêu tái tạo (VQ) duy nhất. Tuy nhiên, chúng tôi nhận thấy rằng hiểu biết và tạo ảnh yêu cầu các mức độ chi tiết của thông tin hình ảnh về cơ bản là khác nhau. Điều này dẫn đến một sự đánh đổi đáng kể, dẫn đến hiệu suất kém, đặc biệt là đối với các tác vụ hiểu biết đa phương thức. TokenFlow giải quyết thách thức này bằng kiến trúc sổ mã kép sáng tạo, tách biệt việc học thuộc tính ngữ nghĩa và học thuộc tính ở cấp độ pixel thông qua một cơ chế ánh xạ được chia sẻ trong khi vẫn duy trì sự liên kết của chúng. Thiết kế này cung cấp quyền truy cập trực tiếp vào các biểu diễn ngữ nghĩa đa chiều, rất quan trọng để hiểu các tác vụ và các thuộc tính hình ảnh chi tiết, cần thiết cho việc tạo ảnh thông qua một chỉ mục được chia sẻ. Các thí nghiệm mở rộng đã chứng minh tính ưu việt của TokenFlow trên nhiều chiều. Tận dụng TokenFlow, chúng tôi đã đạt được LLaVA-1.5 13B đầu tiên vượt trội về hiệu suất hiểu biết đối với các đầu vào hình ảnh rời rạc, đạt mức cải thiện trung bình là 7,2%. Đối với việc tái tạo hình ảnh, chúng tôi đạt được điểm FID mạnh mẽ là 0,63 ở độ phân giải 384x384. Ngoài ra, TokenFlow đạt được hiệu suất tiên tiến trong việc tạo hình ảnh tự hồi quy với điểm GenEval là 0,55 ở độ phân giải 256 x 256, tương đương với SDXL.

Takeaways, Limitations

Takeaways:
Một kiến trúc mới cho bộ phân tích hình ảnh tích hợp để hiểu và tạo nhiệm vụ đa phương thức được trình bày.
Thực hiện hiệu quả việc hiểu ngữ nghĩa và tạo hình ảnh chi tiết đồng thời thông qua kiến trúc sổ mã kép.
ĐạT được hiệu suất hiểu biết vượt trội hơn mô hình có hiệu suất tốt nhất trước đó (LLaVA-1.5 13B) bằng cách sử dụng đầu vào hình ảnh rời rạc (cải thiện 7,2%)
ĐạT được hiệu suất tái tạo hình ảnh tuyệt vời (FID 0,63 @ 384 384) và hiệu suất tạo hình ảnh tự hồi quy (GenEval 0,55 @ 256 256)
Limitations:
Bài báo thiếu tài liệu tham khảo cụ thể về Limitations hoặc hướng nghiên cứu trong tương lai.
Thiếu giải thích chi tiết về sự phụ thuộc vào các tập dữ liệu cụ thể hoặc môi trường phần cứng.
👍