Bài báo này đề cập đến các tác vụ thử đồ ảo dựa trên văn bản, dựa trên các phương pháp thử đồ ảo gần đây tận dụng khả năng tạo mạnh mẽ bằng cách tinh chỉnh các mô hình khuếch tán văn bản sang hình ảnh được đào tạo trước. Cụ thể, chúng tôi tập trung vào tác vụ thử đồ ảo có thể chỉnh sửa bằng văn bản, tác vụ này sửa đổi quần áo dựa trên hình ảnh quần áo được cung cấp và chỉnh sửa kiểu mặc (ví dụ: kiểu sơ vin, vừa vặn) dựa trên mô tả văn bản. Để đạt được điều này, chúng tôi giải quyết ba thách thức chính: (i) thiết kế mô tả văn bản phong phú cho dữ liệu người-quần áo được ghép nối để đào tạo mô hình; (ii) giải quyết các xung đột khi thông tin văn bản về quần áo người hiện có gây trở ngại cho việc tạo quần áo mới; và (iii) điều chỉnh mặt nạ tô màu một cách thích ứng dựa trên mô tả văn bản để đảm bảo các vùng chỉnh sửa phù hợp trong khi vẫn giữ nguyên diện mạo của người ban đầu, không liên quan đến quần áo mới. Để giải quyết những thách thức này, chúng tôi đề xuất PromptDresser, một mô hình thử đồ ảo có thể chỉnh sửa bằng văn bản tận dụng sự hỗ trợ của các mô hình đa phương thức quy mô lớn (LMM) để cho phép thao tác đa năng, chất lượng cao dựa trên lời nhắc văn bản. PromptDresser sử dụng LMM thông qua học theo ngữ cảnh để tạo ra các mô tả văn bản chi tiết về hình ảnh người và quần áo, bao gồm thông tin chi tiết và các thuộc tính chỉnh sửa, với sự can thiệp tối thiểu của con người. Ngoài ra, mặt nạ inpainting tự động điều chỉnh dựa trên lời nhắc văn bản để đảm bảo khu vực chỉnh sửa được an toàn. Kết quả thử nghiệm cho thấy PromptDresser vượt trội hơn các phương pháp hiện có, thể hiện khả năng kiểm soát văn bản tuyệt vời và thao tác trang phục đa dạng.