每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

可编辑噪声图反演:将目标图像编码为噪声以实现高保真图像处理

Created by
  • Haebom

作者

康明玉、崔勇锡

大纲

文本到图像的扩散模型已成功生成高质量且多样化的图像。基于这些进展,扩散模型在基于文本的图像编辑中也展现出卓越的性能。有效图像编辑的关键策略是将源图像反转为与目标图像相关联的可编辑噪声图。然而,之前的反转方法难以准确遵循目标文本提示。这种限制源于反转的噪声图,虽然它能够忠实地重建源图像,但却限制了所需编辑所需的灵活性。为了解决这个问题,本文提出了可编辑噪声图反转(ENM反转),这是一种新颖的反转技术,可以找到最佳噪声图,从而同时确保内容的保存和可编辑性。本文分析了噪声图的特性以增强可编辑性,并在此基础上提出了一种可编辑噪声细化方法,该方法可以最小化重建和编辑后的噪声图之间的差异,从而使它们根据所需的编辑任务进行定制。大量实验表明,ENM Inversion 在各种图像编辑任务中,无论是在源图像保存方面,还是在编辑保真度方面,都优于现有方法。此外,该方法可以轻松应用于视频编辑,实现帧间时间一致性和内容操作。

Takeaways,Limitations

ENM Inversion 提出了一种新的反转技术,允许忠实地根据文本提示编辑图像,同时保留源图像的内容。
我们的方法在图像编辑保存和编辑保真度方面优于现有方法。
ENM 反转还可以应用于视频编辑,实现帧之间的内容操作,同时保持时间一致性。
本文没有具体说明Limitations。(在未来的研究或实际应用中可能会发现其他Limitations。)
👍