Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PromptDresser: Cải thiện chất lượng và khả năng kiểm soát của thử đồ ảo thông qua lời nhắc văn bản tạo ra và mặt nạ nhận biết lời nhắc

Created by
  • Haebom

Tác giả

Jeongho Kim, Hoiyeong Jin, Sunghyun Park, Jaegul Choo

Phác thảo

Bài báo này đề cập đến các tác vụ thử đồ ảo dựa trên văn bản, dựa trên các phương pháp thử đồ ảo gần đây tận dụng khả năng tạo mạnh mẽ bằng cách tinh chỉnh các mô hình khuếch tán văn bản sang hình ảnh được đào tạo trước. Cụ thể, chúng tôi tập trung vào tác vụ thử đồ ảo có thể chỉnh sửa bằng văn bản, tác vụ này sửa đổi quần áo dựa trên hình ảnh quần áo được cung cấp và chỉnh sửa kiểu mặc (ví dụ: kiểu sơ vin, vừa vặn) dựa trên mô tả văn bản. Để đạt được điều này, chúng tôi giải quyết ba thách thức chính: (i) thiết kế mô tả văn bản phong phú cho dữ liệu người-quần áo được ghép nối để đào tạo mô hình; (ii) giải quyết các xung đột khi thông tin văn bản về quần áo người hiện có gây trở ngại cho việc tạo quần áo mới; và (iii) điều chỉnh mặt nạ tô màu một cách thích ứng dựa trên mô tả văn bản để đảm bảo các vùng chỉnh sửa phù hợp trong khi vẫn giữ nguyên diện mạo của người ban đầu, không liên quan đến quần áo mới. Để giải quyết những thách thức này, chúng tôi đề xuất PromptDresser, một mô hình thử đồ ảo có thể chỉnh sửa bằng văn bản tận dụng sự hỗ trợ của các mô hình đa phương thức quy mô lớn (LMM) để cho phép thao tác đa năng, chất lượng cao dựa trên lời nhắc văn bản. PromptDresser sử dụng LMM thông qua học theo ngữ cảnh để tạo ra các mô tả văn bản chi tiết về hình ảnh người và quần áo, bao gồm thông tin chi tiết và các thuộc tính chỉnh sửa, với sự can thiệp tối thiểu của con người. Ngoài ra, mặt nạ inpainting tự động điều chỉnh dựa trên lời nhắc văn bản để đảm bảo khu vực chỉnh sửa được an toàn. Kết quả thử nghiệm cho thấy PromptDresser vượt trội hơn các phương pháp hiện có, thể hiện khả năng kiểm soát văn bản tuyệt vời và thao tác trang phục đa dạng.

Takeaways, Limitations

Takeaways:
Chúng tôi giới thiệu một mô hình thử đồ ảo mới cho phép tinh chỉnh kiểu dáng và độ vừa vặn của trang phục dựa trên hình ảnh quần áo bằng cách sử dụng lời nhắc văn bản.
Cho phép thao tác may mặc đa dạng, chất lượng cao bằng cách sử dụng các mô hình đa phương thức quy mô lớn (LMM).
Tự động tạo mô tả văn bản phong phú với nỗ lực tối thiểu của con người thông qua công nghệ học theo ngữ cảnh.
Cải thiện chất lượng hình ảnh bằng cách truyền tải hiệu quả các chi tiết quần áo khó có thể chụp được chỉ bằng hình ảnh.
Nó cho thấy hiệu suất tốt hơn so với các phương pháp hiện có.
Limitations:
Khả năng đánh giá hiệu suất của mô hình đề xuất có thể bị giới hạn ở một tập dữ liệu cụ thể.
Cần nghiên cứu thêm để xác định khả năng áp dụng chung cho các loại quần áo và vóc dáng khác nhau.
Có khả năng xảy ra lỗi do sự mơ hồ hoặc hiểu sai lời nhắc trong văn bản.
Vì nó phụ thuộc rất nhiều vào LMM nên hiệu suất của nó có thể bị ảnh hưởng.
👍