# AudioMoG: Guiding Audio Generation with Mixture-of-Guidance

### 저자

Junyou Wang, Zehua Chen, Binjie Yuan, Kaiwen Zheng, Chang Li, Yuxuan Jiang, Jun Zhu

### 💡 개요

본 논문은 기존의 classifier-free guidance(CFG)가 생성 품질을 높이는 대신 다양성을 해치는 문제를 해결하기 위해, classifier-free guidance(CFG)와 autoguidance(AG)의 장점을 결합한 AudioMoG라는 새로운 오디오 생성 샘플링 방법을 제안합니다. AudioMoG는 다양한 가이던스 신호와 상호작용 항을 통합하여 텍스트-투-오디오(T2A) 및 비디오-투-오디오(V2A) 생성 품질을 크게 향상시키면서도 추가적인 재학습 없이 효율적인 추론 속도를 유지합니다.

### 🔑 시사점 및 한계

- **통합 가이던스의 효과:** 서로 다른 특성을 가진 복수의 가이던스 신호를 효과적으로 결합함으로써 단일 가이던스 방식보다 우수한 생성 품질과 다양성을 동시에 확보할 수 있음을 보여줍니다.

- **범용성:** 텍스트-투-오디오, 비디오-투-오디오뿐만 아니라 텍스트-투-뮤직, 이미지 생성 등 다양한 생성 작업에 적용 가능함을 입증하여 범용적인 가이던스 방법론으로서의 잠재력을 시사합니다.

- **가이던스 항의 최적화:** 본 연구에서는 CFG와 AG의 조합을 중심으로 살펴보았으나, 향후 더 다양한 종류의 가이던스 항을 탐색하고 최적의 조합을 찾는 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2509.23727)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).