Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Căn chỉnh trực tiếp toàn bộ quỹ đạo khuếch tán với sở thích chi tiết của con người

Created by
  • Haebom

Tác giả

Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang

Phác thảo

Bài báo này trình bày một phương pháp tiếp cận mới, giải quyết hai thách thức chính của các phương pháp hiện có, giúp căn chỉnh trực tiếp các mô hình khuếch tán với sở thích của con người: chi phí tính toán và nhu cầu điều chỉnh mô hình bù trừ ngoại tuyến liên tục. Các phương pháp hiện có yêu cầu tính toán gradient trong quá trình khử nhiễu đa giai đoạn, dẫn đến chi phí tính toán cao. Hơn nữa, chúng có các bước tối ưu hóa hạn chế và yêu cầu điều chỉnh mô hình bù trừ ngoại tuyến liên tục để đạt được hình ảnh chân thực và hiệu ứng ánh sáng chính xác. Để khắc phục những hạn chế của khử nhiễu đa giai đoạn, bài báo này đề xuất một phương pháp Căn chỉnh Trực tiếp (Direct-Align) xác định trước một từ điển nhiễu và nội suy hiệu quả hình ảnh gốc theo các bước thời gian tùy ý. Hơn nữa, chúng tôi giới thiệu Tối ưu hóa Sở thích Tương đối Ngữ nghĩa (SRPO), sử dụng các tín hiệu có điều kiện văn bản làm bù trừ. Phương pháp này điều chỉnh bù trừ trực tuyến dựa trên sự củng cố nhắc nhở tích cực và tiêu cực, giảm sự phụ thuộc vào việc tinh chỉnh bù trừ ngoại tuyến. Bằng cách tinh chỉnh mô hình FLUX với việc khử nhiễu tối ưu và điều chỉnh bù trừ trực tuyến, chúng tôi đạt được sự cải thiện hơn gấp ba lần về độ chân thực và chất lượng thẩm mỹ theo đánh giá của con người.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày phương pháp Direct-Align có hiệu quả giải quyết vấn đề chi phí tính toán của quá trình loại bỏ nhiễu nhiều giai đoạn.
Chúng tôi đề xuất SRPO, một phương pháp điều chỉnh phần thưởng trực tuyến giúp giảm sự phụ thuộc vào việc điều chỉnh mô hình phần thưởng ngoại tuyến.
Cải thiện hơn 3 lần về tính chân thực và chất lượng thẩm mỹ của mô hình FLUX.
Phản ánh hiệu quả sở thích của người dùng thông qua việc điều chỉnh phần thưởng dựa trên văn bản.
Limitations:
Hiệu suất của phương pháp Direct-Align có thể phụ thuộc vào chất lượng của từ điển nhiễu được xác định trước.
Hiệu quả của SRPO có thể bị ảnh hưởng bởi chất lượng và sự đa dạng của lời nhắc văn bản.
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
Chỉ có kết quả thử nghiệm cho một mô hình cụ thể (FLUX) được trình bày, khiến khả năng khái quát hóa cho các mô hình khác không chắc chắn.
👍