Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Editable Noise Map Inversion: Encoding Target-image into Noise For High-Fidelity Image Manipulation

Created by
  • Haebom

저자

Mingyu Kang, Yong Suk Choi

개요

텍스트-이미지 확산 모델은 고품질 및 다양한 이미지를 생성하는 데 성공을 거두었습니다. 이러한 발전을 바탕으로, 확산 모델은 텍스트 기반 이미지 편집에서도 뛰어난 성능을 보여주고 있습니다. 효과적인 이미지 편집을 위한 핵심 전략은 소스 이미지를 대상 이미지와 연관된 편집 가능한 노이즈 맵으로 역변환하는 것입니다. 그러나 이전의 역변환 방법은 대상 텍스트 프롬프트에 정확하게 따르는 데 어려움이 있었습니다. 이러한 한계는 소스 이미지의 충실한 재구성을 가능하게 하지만, 원하는 편집에 필요한 유연성을 제한하는 역변환된 노이즈 맵에서 비롯됩니다. 이러한 문제를 해결하기 위해, 본 논문은 콘텐츠 보존과 편집 가능성을 모두 보장하기 위해 최적의 노이즈 맵을 찾는 새로운 역변환 기술인 Editable Noise Map Inversion (ENM Inversion)을 제안합니다. 본 논문은 편집 가능성을 향상시키기 위한 노이즈 맵의 속성을 분석하고, 이러한 분석을 바탕으로 재구성된 노이즈 맵과 편집된 노이즈 맵 간의 차이를 최소화하여 원하는 편집에 맞게 조정되는 편집 가능한 노이즈 정제 방법을 도입합니다. 광범위한 실험을 통해 ENM Inversion이 소스 이미지 보존과 대상 프롬프트의 편집 충실도 측면에서 다양한 이미지 편집 작업에서 기존 접근 방식을 능가함을 보여줍니다. 또한, 본 방법은 비디오 편집에도 쉽게 적용할 수 있어 프레임 간의 시간적 일관성과 콘텐츠 조작을 가능하게 합니다.

시사점, 한계점

ENM Inversion은 소스 이미지의 콘텐츠를 보존하면서 텍스트 프롬프트에 충실하게 이미지를 편집할 수 있는 새로운 역변환 기술을 제안합니다.
본 방법은 이미지 편집의 보존 및 편집 충실도 측면에서 기존 방법보다 우수한 성능을 보입니다.
ENM Inversion은 비디오 편집에도 적용 가능하며, 시간적 일관성을 유지하면서 프레임 간의 콘텐츠 조작을 가능하게 합니다.
논문에 구체적인 한계점은 명시되지 않았습니다. (향후 연구나 실제 적용 과정에서 추가적인 한계점이 발견될 수 있음)
👍