Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Interactive Video Generation via Domain Adaptation

Created by
  • Haebom

저자

Ishaan Rawal, Suryansh Kumar

개요

텍스트 조건 확산 모델은 고품질 비디오 생성을 위한 강력한 도구로 부상했습니다. 하지만 사용자가 객체 궤적과 같은 움직임 요소를 제어하는 대화형 비디오 생성(IVG)을 가능하게 하는 것은 여전히 어려운 과제입니다. 최근의 학습 없는 접근 방식에서는 어텐션 마스크를 도입하여 궤적을 안내하지만, 이는 종종 지각 품질을 저하시킵니다. 본 논문에서는 이러한 방법의 두 가지 주요 실패 모드를 모두 도메인 이동 문제로 해석하고, 도메인 적응에서 영감을 받은 해결책을 제안합니다. 첫째, 지각 품질 저하를 사전 학습된 모델이 마스크된 어텐션을 처리하도록 훈련되지 않았기 때문에 어텐션 마스크에 의해 유발된 내부 공변량 이동으로 설명합니다. 이를 해결하기 위해 분포 매칭을 통해 이러한 이동을 완화하도록 설계된 마스크 정규화라는 사전 정규화 계층을 제안합니다. 둘째, 임의로 샘플링된 초기 노이즈가 IVG 조건과 일치하지 않는 초기화 간격을 해결하기 위해 각 잡음 제거 단계에서 시공간 일관성을 강화하는 시간적 내재 확산 사전을 도입합니다. 광범위한 정성적 및 정량적 평가는 마스크 정규화와 시간적 내재적 잡음 제거가 기존 최첨단 IVG 기술에 비해 지각 품질과 궤적 제어를 모두 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점: 마스크 정규화와 시간적 내재적 잡음 제거 기법을 통해 기존 대화형 비디오 생성(IVG) 기술보다 지각 품질과 궤적 제어 성능을 향상시켰습니다. 도메인 적응 기법을 IVG에 적용하여 효과적인 해결책을 제시했습니다.
한계점: 본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다. 다양한 비디오 데이터셋과 복잡한 움직임에 대한 성능 평가가 추가적으로 요구됩니다. 또한, 계산 비용 측면에서의 효율성 개선이 필요할 수 있습니다.
👍