# Woosh: A Sound Effects Foundation Model

### 저자

Gaetan Hadjeres, Marc Ferras, Khaled Koutini, Benno Weck, Alexandre Bittar, Thomas Hummel, Zineb Lahrichi, Hakim Missoum, Joan Serra, Yuki Mitsufuji

### 💡 개요

본 논문은 오디오 연구 커뮤니티를 위한 오픈 생성 모델인 Woosh를 소개합니다. Woosh는 고품질 오디오 인코더/디코더, 텍스트-오디오 정렬 모델, 텍스트-오디오 및 비디오-오디오 생성 모델을 포함하며, 사운드 효과 생성에 최적화되었습니다. 또한, 리소스가 적은 환경이나 빠른 추론을 위한 증류(distilled) 버전 모델도 함께 공개되었습니다.

### 🔑 시사점 및 한계

- 사운드 효과 생성 분야에서 기존 오픈 모델 대비 경쟁력 있거나 우수한 성능을 보여주는 기반 모델을 제시했습니다.

- 텍스트 및 비디오 조건을 활용한 사운드 효과 생성 기능을 제공하여 다양한 응용 가능성을 열었습니다.

- 저사양 환경에서도 효율적으로 동작하는 모델을 공개하여 연구 및 개발 접근성을 높였습니다.

- 공개된 모델의 구체적인 성능 개선 가능성이나 특정 사운드 효과 카테고리에 대한 깊이 있는 분석은 추가 연구가 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2604.01929)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
