Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bài báo này trình bày việc nâng cao hiệu suất bằng cách áp dụng suy luận Chuỗi Tư duy (CoT) vào quá trình tạo ảnh tự hồi quy. Chúng tôi tập trung vào ba kỹ thuật: kéo dài thời gian tính toán kiểm tra để xác minh, căn chỉnh các ưu tiên của mô hình thông qua Tối ưu hóa Ưu tiên Trực tiếp (DPO), và kết hợp bổ sung hai kỹ thuật này. Cụ thể, chúng tôi đề xuất Mô hình Phần thưởng Đánh giá Tiềm năng (PARM) và PARM++, chuyên về tạo ảnh tự hồi quy. PARM đánh giá từng bước tạo ảnh thông qua phương pháp đánh giá tiềm năng và kết hợp các điểm mạnh của các mô hình phần thưởng hiện có, trong khi PARM++ bổ sung thêm cơ chế tự hiệu chỉnh để hiệu chỉnh các ảnh xấu. Bằng cách áp dụng các phương pháp được đề xuất dựa trên mô hình Show-o, chúng tôi đạt được cải thiện hiệu suất 24% trên chuẩn GenEval, vượt trội hơn 15% so với Stable Diffusion 3.
Takeaways, Limitations
•
Takeaways:
◦
Chúng tôi đã áp dụng thành công suy luận CoT vào quá trình tạo ảnh tự hồi quy, chứng minh hiệu suất được cải thiện.
◦
Cải thiện chất lượng tạo hình ảnh bằng cách đề xuất các mô hình phần thưởng mới như PARM và PARM++.
◦
Chúng tôi trình bày một phương pháp hiệu quả để kết hợp các chiến lược suy luận CoT với việc mở rộng tính toán thời gian thử nghiệm và DPO.
◦
ĐạT hiệu suất SOTA trên chuẩn mực GenEval.
•
Limitations:
◦
Cần có thêm các nghiên cứu để tìm hiểu tính tổng quát của phương pháp được đề xuất và khả năng áp dụng của nó cho các mô hình tạo hình ảnh khác.
◦
Cần phân tích chi phí tính toán và độ phức tạp của các mô hình PARM và PARM++.
◦
Cần xác thực thêm để xác định xem cải tiến hiệu suất cho các điểm chuẩn cụ thể có được áp dụng chung cho các điểm chuẩn khác hay không.