Diffusion 모델은 이미지, 오디오, 비디오 생성 모델에서 최첨단을 달성했지만, 세분화된 제어 가능한 생성, 즉 관련 없는 콘텐츠를 방해하지 않으면서 특정 개념을 지속적으로 제어하는 것은 여전히 어려운 과제입니다. Concept Sliders (CS)는 텍스트 대비를 통해 의미론적 방향을 발견하여 유망한 방향을 제시하지만, 개념별 훈련과 아키텍처 특정 미세 조정(예: LoRA)이 필요하여 새로운 양식으로의 확장성이 제한됩니다. 본 연구에서는 추론 중에 CS 공식을 부분적으로 추정하여 완전히 훈련이 필요 없고 양식에 구애받지 않는 간단하면서도 효과적인 접근 방식인 FreeSliders를 소개합니다. 양식에 구애받지 않는 평가를 지원하기 위해 CS 벤치마크를 비디오 및 오디오를 포함하도록 확장하여 여러 양식으로 세분화된 개념 생성 제어를 위한 첫 번째 스위트를 구축했습니다. 또한 평가 품질을 향상시키기 위해 세 가지 평가 속성과 새로운 메트릭을 제안합니다. 마지막으로, 규모 선택 및 비선형 트래버설의 열린 문제를 식별하고 포화점을 자동으로 감지하고 지각적으로 균일하고 의미론적으로 의미 있는 편집을 위해 트래버설을 재매개변수화하는 2단계 절차를 소개합니다. 광범위한 실험을 통해 본 방법은 양식 간의 플러그 앤 플레이, 훈련 없는 개념 제어를 가능하게 하고 기존 기준선보다 개선하며 원칙적인 제어 가능한 생성을 위한 새로운 도구를 구축함을 보여줍니다. 벤치마크 및 방법의 대화형 프레젠테이션은 https://azencot-group.github.io/FreeSliders/에서 확인할 수 있습니다.
시사점, 한계점
•
시사점:
◦
완전한 훈련 없이 다양한 양식에서 개념 제어를 가능하게 하는 새로운 방법론 제시 (FreeSliders).
◦
비디오 및 오디오를 포함하는, 세분화된 개념 생성 제어를 위한 최초의 다중 양식 벤치마크 구축.
◦
평가 품질을 향상시키는 새로운 평가 속성과 메트릭 제안.
◦
자동 포화점 감지 및 재매개변수화를 통한 지각적으로 균일하고 의미 있는 편집을 위한 2단계 절차 제시.
•
한계점:
◦
규모 선택 및 비선형 트래버설 문제에 대한 해결책 제시. (하지만 이 자체가 한계점인지, 혹은 해결해야 할 문제인지 명확하지 않음)