Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

Created by
  • Haebom

저자

Kwanyoung Kim, Sanghyun Kim

개요

본 논문은 비디오 확산 모델에서 초기 노이즈 선택이 생성 품질과 프롬프트 정렬에 미치는 영향을 다룹니다. 기존 방법들이 외부적으로 설계된 사전 정보(예: 주파수 필터, 프레임 간 스무딩)에 의존하는 것과 달리, 본 논문에서는 모델 내부 신호를 활용하여 최적의 노이즈 시드를 선택하는 ANSE(Active Noise Selection for Generation) 프레임워크를 제안합니다. ANSE는 BANSA(Bayesian Active Noise Selection via Attention)라는 획득 함수를 사용하여 여러 확률적 어텐션 샘플 간의 엔트로피 불일치를 측정하여 모델의 신뢰도와 일관성을 추정합니다. 효율적인 추론을 위해 BANSA의 베르누이 마스크 근사치를 도입하여 단일 확산 단계와 일부 어텐션 레이어만으로 점수를 추정합니다. CogVideoX-2B 및 5B에 대한 실험 결과, ANSE는 추론 시간을 각각 8% 및 13% 증가시키는 것만으로 비디오 품질과 시간적 일관성을 향상시키는 것을 보여줍니다.

시사점, 한계점

시사점:
모델 내부 신호를 활용하여 초기 노이즈 시드를 선택하는 새로운 프레임워크 ANSE 제시.
BANSA를 통해 모델의 신뢰도와 일관성을 효과적으로 측정하고, 고품질 노이즈 시드 선택 가능.
베르누이 마스크 근사치를 통해 추론 시간 증가를 최소화하면서 성능 향상 달성.
CogVideoX-2B 및 5B 모델에서 비디오 품질 및 시간적 일관성 향상 확인.
한계점:
ANSE의 성능은 BANSA의 성능에 의존적이며, BANSA의 정확성에 대한 추가적인 연구가 필요.
다양한 비디오 확산 모델 및 프롬프트에 대한 일반화 성능에 대한 추가적인 평가 필요.
베르누이 마스크 근사치는 BANSA의 정확성에 영향을 미칠 수 있으며, 이에 대한 최적화 연구 필요.
👍