Sign In

FreeSliders: Training-Free, Modality-Agnostic Concept Sliders for Fine-Grained Diffusion Control in Images, Audio, and Video

Created by
  • Haebom
Category
Empty

저자

Rotem Ezra, Hedi Zisling, Nimrod Berman, Ilan Naiman, Alexey Gorkor, Liran Nochumsohn, Eliya Nachmani, Omri Azencot

개요

Diffusion 모델은 이미지, 오디오, 비디오 생성 모델에서 최첨단을 달성했지만, 세분화된 제어 가능한 생성, 즉 관련 없는 콘텐츠를 방해하지 않으면서 특정 개념을 지속적으로 제어하는 것은 여전히 어려운 과제입니다. Concept Sliders (CS)는 텍스트 대비를 통해 의미론적 방향을 발견하여 유망한 방향을 제시하지만, 개념별 훈련과 아키텍처 특정 미세 조정(예: LoRA)이 필요하여 새로운 양식으로의 확장성이 제한됩니다. 본 연구에서는 추론 중에 CS 공식을 부분적으로 추정하여 완전히 훈련이 필요 없고 양식에 구애받지 않는 간단하면서도 효과적인 접근 방식인 FreeSliders를 소개합니다. 양식에 구애받지 않는 평가를 지원하기 위해 CS 벤치마크를 비디오 및 오디오를 포함하도록 확장하여 여러 양식으로 세분화된 개념 생성 제어를 위한 첫 번째 스위트를 구축했습니다. 또한 평가 품질을 향상시키기 위해 세 가지 평가 속성과 새로운 메트릭을 제안합니다. 마지막으로, 규모 선택 및 비선형 트래버설의 열린 문제를 식별하고 포화점을 자동으로 감지하고 지각적으로 균일하고 의미론적으로 의미 있는 편집을 위해 트래버설을 재매개변수화하는 2단계 절차를 소개합니다. 광범위한 실험을 통해 본 방법은 양식 간의 플러그 앤 플레이, 훈련 없는 개념 제어를 가능하게 하고 기존 기준선보다 개선하며 원칙적인 제어 가능한 생성을 위한 새로운 도구를 구축함을 보여줍니다. 벤치마크 및 방법의 대화형 프레젠테이션은 https://azencot-group.github.io/FreeSliders/에서 확인할 수 있습니다.

시사점, 한계점

시사점:
완전한 훈련 없이 다양한 양식에서 개념 제어를 가능하게 하는 새로운 방법론 제시 (FreeSliders).
비디오 및 오디오를 포함하는, 세분화된 개념 생성 제어를 위한 최초의 다중 양식 벤치마크 구축.
평가 품질을 향상시키는 새로운 평가 속성과 메트릭 제안.
자동 포화점 감지 및 재매개변수화를 통한 지각적으로 균일하고 의미 있는 편집을 위한 2단계 절차 제시.
한계점:
규모 선택 및 비선형 트래버설 문제에 대한 해결책 제시. (하지만 이 자체가 한계점인지, 혹은 해결해야 할 문제인지 명확하지 않음)
(논문 내용만으로는 구체적인 한계점을 파악하기 어려움)
👍