Fugatto : 오디오 혁신을 예고하는 NVIDIA 생성 AI

Fugatto : 오디오 혁신을 예고하는 NVIDIA 생성 AI 스위스 군용 나이프 for 사운드 Fugatto, Suno와 뭐가 다르죠?Fugatto 의 7가지 기능 01. 오디오 생성 (Audiocraft Generation, Text-to-Sound) 02. 오디오 변형 (Audio Morphing) 03. 오디오 요소 추출 (Audio Element Extraction) 04. 억양과 감정이 담긴 대화 생성 (Emotionally Speech Voice) 05. 음악에 악기 추가 (Add Instrument on Music) 06. 멜로디의 음성 전환 (Melody Conversion to Voice) 07. 독특한 음악 생성 (Unique Music Creation)7가지 기능을 살펴보니 어떠한가.웹 인터페이스 상상력을 자극하는 사운드 기대되는 분야들 이미지 & 비디오 & 사운드 프롬프트 언제 사용할 수 있을까 Reference

Season

2024.12

Summary

NVIDIA가 텍스트와 오디오 프롬프트를 통해 음악, 음성, 독특한 소리를 생성하고 변환할 수 있는 새로운 생성 AI 모델 'Fugatto'를 공개했습니다. 1) 텍스트 설명을 바탕으로 음악을 생성하거나, 2)기존 음악에 악기를 추가/제거하고, 3) 억양과 감정을 변형하는 등 다양한 오디오 작업이 가능합니다.

Fugatto : 오디오 혁신을 예고하는 NVIDIA 생성 AI

mintbear AI News 2024.12.01

안녕하세요. 오늘은 NVIDIA가 예고한 혁신적인 사운드 생성 AI 모델, Fugatto에 대해 자세히 살펴 볼게요.
(아직 대중에 공개되진 않았어요.)

Fugatto naming : short for Foundational Generative Audio Transformer Opus 1

🇺🇸 EN / 🇰🇷 KR

스위스 군용 나이프 for 사운드

" A team of generative AI researchers created a Swiss Army knife for sound, one that allows users to the audio output simply using text. " _ EN / KR

이번 발표에서 NVIDIA는 사운드를 위한 스위스 군용 나이프를 만들었다며, 정말 강력한 자신감을 보였습니다. Fugatto, 정말 그렇게 유용한 도구일까요?

Fugatto 는 텍스트와 오디오를 통해 아래처럼 다양한 방식으로 오디오 콘텐츠를 생성하고 변형할 수 있어요.

1️⃣ 텍스트로 사운드를 생성하거나 (Text-to-Sound, T2S)

2️⃣ 사운드를 다른 스타일로 변환하고

3️⃣ 음악에서 목소리나 특정 요소를 분리, 추출해 내고

4️⃣ 억양이나 감정이 반영된 대화를 생성

5️⃣ 음악에 악기를 추가

6️⃣ 악기 연주를 목소리로 바꾸어 부르게 하고

7️⃣ 유니크하고 신선한 음원으로 음악을 생성 할 수도 있습니다.

(위의 7가지 기능은 아래에서 더 자세히 다룹니다.)

우리가 상상 할 수 있는 거의 모든 오디오 작업이 가능한거죠.

Fugatto, Suno와 뭐가 다르죠?

그런데, 이미 사용하던 Suno와는 무엇이 다른 걸까요? 이미 현존 최강 음악 생성 도구인 Suno, Udio 에서도 아주 훌륭한 음악이 생성되지만, 생성된 음악의 자유로운 변환이나, 믹싱, 요소 편집이 가능한 것은 아닙니다.

이에 비해, Fugatto 에서 공개된 기술은 다양한 형태의 사운드나 음악을 1️⃣ 생성하고, 2️⃣ 변환하고, 3️⃣ 추출하고, 4️⃣말하게 하고, 5️⃣ 추가하고, 6️⃣ 바꾸고, 7️⃣ 음원을 교체 할 수 있는 _ 도구입니다. 거의 일상적인 수준의 '자연어 프롬프트'로 말이죠.

결론적으로,

Suno 가 보컬과 악기를 포함하는 음악(Song)을 만드는 완성형 작곡 도구라면,

Fugatto 는 음악, 목소리, 효과음을 포함한 모든 형태의 오디오 사운드를 생성 • 편집하는 도구라고 볼 수 있겠습니다.

물론, 음악(song)을 작곡하는 목적이라면 앞으로도 Suno가 더 편리하고 좋은 결과를 줄 수 있습니다. 하지만, 영상 제작 등의 목적으로 다양한 음원이 필요한 사용자에게 Fugatto의 편리성은 정말 압도적이네요.

이 멋진 스위스 군용 나이프의 숨은 기능에 대해, 자세히 살펴보겠습니다. 하나 하나 펼쳐 봅니다.

Fugatto 의 7가지 기능

Fugatto 에서 공개 된 7가지의 기능은 다음과 같습니다.

기능 01 . 오디오 생성

기능 02. 오디오 변형

기능 03. 오디오 요소 추출

기능 04. 감정을 담은 목소리와 대화 생성

기능 05. 음악에 악기 추가

기능 06. 멜로디를 보컬로 전환

기능 07. 유니크한 사운드로 음악 생성

이번엔 공개된 Fugatto 의 작업 프로세스와 실제 사운드를 분석해보겠습니다. (원본 영상 링크)

01. 오디오 생성 (Audiocraft Generation, Text-to-Sound)

Fugatto는 텍스트 프롬프트를 기반으로 새로운 음악과 소리를 만들어 냅니다. 아래는 '베이스 펄스와 디지털 잡음'을 이용해 '거대한 지능의 깨어남'을 표현하는 사운드 생성 샘플입니다. 직접 들어보세요.

Prompt : Deep, rumbling bass pulses paired with intermittent, high-pitched digital chirps, like the sound of a massive, sentient machine waking up.

프롬프트 : 깊고 우렁찬 베이스 펄스와, 간헐적으로 높은 음의 디지털 잡음이 어울리며, 마치 거대한 지능을 가진 기계가 깨어나는 듯한 느낌을 줍니다.

두 가지 사운드의 특징을 잘 살려 생성하고, "간헐적으로 서로 어울리게 하는" 연출 뿐만 아니라, "마치 거대한 지능을 가진 기계가 깨어나는 듯한 느낌"과 같은 사운드의 무드에 대한 자연어 표현을 이해하고 있습니다. 특히 자연어 프롬프트를 이해한다는 건 정말 중요한 포인트에요.

02. 오디오 변형 (Audio Morphing)

Fugatto는 소리를 다양한 방식으로 변형하고 새로운 형태로 바꿀 수 있습니다. 단순한 소리를 전혀 다른 질감과 감정으로 바꾸어 영화나 오디오 프로젝트에 어울리는 특별한 음향 경험을 만들어낼 수 있죠.

아마 슬픈 감정의 기타 연주를 신나는 악기나 리듬으로 바꿀 수도 있을거에요. 예를 들면, 지나가는 기차 소리를 오케스트라 사운드로 변형(Morphing) 할 수도 있습니다.

Prompt : Create a sound where a train passes by and becomes a lush string orchestra.
프롬프트 : 기차가 지나가는 소리가 풍성한 현악 오케스트라로 변하는 사운드를 만들어 주세요.

정말 멋진 기능이죠! 하지만 앞의 기차 소리가 몇 초 동안 유지되는지, 이후 현악 오케스트라의 세부적인 악기 구성을 모두 이해하고 구현할 수 있는지는 알 수 없습니다. 정교한 프롬프트를 한다면, 현악기 이름을 하나 하나 추가 해야 할 수도 있습니다.

이런 사용자 의도 반영이 얼마나 가능할지, 섬세한 컨트롤과 UI/UX 편의성 등은 아직 기다려야 하겠습니다.

03. 오디오 요소 추출 (Audio Element Extraction)

음악에서 음성 트랙만을 추출하는 등, 오디오에서 특정 요소를 깔끔하게 분리해낼 수 있습니다.

Prompt : Isolate the voice track.
프롬프트 : 보이스 트랙을 분리해 주세요.

04. 억양과 감정이 담긴 대화 생성 (Emotionally Speech Voice)

대화 음성을 생성하고, 다양한 톤과 감정과 억양 스타일로 변환할 수 있습니다. 차분한 목소리를 화난 목소리로 바꾸거나, 행복한 목소리로 변형 할 수 있습니다.

Prompt 1 : In a calm voice, with an American accent say: "Kids are talking by the door."
프롬프트 1 : 차분한 목소리로, 미국식 억양을 사용해 “아이들이 문 옆에서 이야기하고 있어요”라고 말해 주세요.

Prompt 2 : Turn this calm voice into an angry voice.
프롬프트: 이 차분한 목소리를 화난 목소리로 바꿔 주세요.

Prompt 3 : Now make it happy.
프롬프트: 이제 이 목소리를 행복하게 만들어 주세요.

스크립트를 입력해서 보이스 대화를 생성하는 기술은 Eleven Labs 등 이미 상용화 되어 있는 기술이지만, 톤과 감정과 억양을 자유롭게 구현해내는 부분은 정말 놀라운 기술이에요. 현재 대부분의 보이스 생성 AI는 메뉴화된 인터페이스로 지원하는 감정과 국가가 제한되어 있죠. 특정 감정을 학습시켜서 구현하기 때문이에요.

mint

그런데 Fugatto는 그냥 톤과 억양과 감정을 자연어로 말하면 최대한 구현해주고 있습니다. OpenAI - Voice Mode 의 자연스러운 대화가 구현되어 있는 느낌이에요. 역시 OpenAI 와 NVIDIA라서 가능한 스케일 법칙일까요?

아니, 어쩌면 angry 와 happy 라는 기본적인 감정만 학습되어 있는 상태일지도 모르죠.

하지만, 한 가지 더 놀라운 것이 남아 있어요! 세 번째 "Now make it happy." 라는 자연어 프롬프트 입니다. '지금 그것을' 이라고 프롬프팅 하면, 앞의 대화 맥락과 앞에 생성된 사운드를 자동으로 인지하고, 활용해서 편집하는 거죠.

보통은 매번 동일한 프롬프트를 반복 사용하거나, 앞에 생성했던 사운드를 레퍼런스로 다시 업로드하거나 입력해야하는 절차가 필요했을 거에요. 그런데, "Now make it -" 이라는 표현으로 아주 쉽게 처리 되는 겁니다.

오.. 이건 정말 훌륭합니다! 이게 바로 진짜 대화로 AI와 생성 작업을 하는 거에요.

05. 음악에 악기 추가 (Add Instrument on Music)

이미 준비된 음원에 새로운 악기를 추가하는 것은 아주 편리한 작곡 방식입니다. 만들어진 음원에 순서대로 필요한 악기를 추가해가며, 음악을 완성해갈 수 있어요.

Prompt : Add drums to this Synthesizer track. (on Techno Music)
프롬프트: 이 신시사이저 트랙에 드럼을 추가해 주세요. (테크노 음악에 적용)

Suno 에서는 가사와 스타일 프롬프트를 입력하면 노래 한 곡이 한 번에 완성되는 방식이지만,
Fugatto 에서는 내가 원하는 악기를 순서대로 쌓아가며 레이어 얹어가듯 작곡 할 수 있겠습니다. 실제 작곡하는 방식이기도 하죠. 아주 멋집니다.

하지만, 사실 매번 악기를 추가하는 과정이 정말 번거롭거나, 원하는 대로 컨트롤 되지 않을 수도 있을 겁니다. 악기를 추가했는데, 내가 원하는 악기가 아니거나, 다른 스타일로 연주될 수도 있어요. 생성부가 너무 짧거나 길 수도 있구요. 피치 오버하거나 볼륨이 다를 수도 있습니다. 그럼 더 세밀하게 컨트롤하는 프롬프트를 작성해야 하는데, 아마 여기서부터는 쉽지 않을 겁니다.

그렇다면, 원래 작곡하는 분들이 본인의 음원에 특수한 사운드를 얹어 놓는 경우에 가장 큰 효과를 얻을 것 같습니다.

06. 멜로디의 음성 전환 (Melody Conversion to Voice)

악기로 연주된 멜로디를 사람의 노래로 바꿀 수 있습니다. 기본 멜로디만 넣어두면, Fugatto가 그대로 불러주죠. 오페라 스타일에서부터 팝과 락 스타일의 스캣 싱잉으로 말이죠.

Prompt 1 : Turn this MIDI melody into a female voice, operatic scat singing style.
프롬프트 1 : 이 MIDI 멜로디를 여성 목소리, 오페라 스타일의 스캣 싱잉으로 바꿔 주세요.

Prompt 2 : Turn this MIDI melody into a female voice, pop rock scat singing style.
프롬프트 2 : 이 MIDI 멜로디를 여성 목소리, 팝 록 스타일의 스캣 싱잉으로 바꿔 주세요.

샘플에서는 그냥 'a female voice' 를 활용했지만, 조금만 더 발전하면 아마 '특정 목소리 레퍼런스'를 활용하는 것도 가능할 것 같습니다. 아리아나 그란데의 목소리를 빌어 내가 만든 멜로디를 노래 부르게 할 수 있는 거죠. (물론 저작권은 지켜야하구요.)

07. 독특한 음악 생성 (Unique Music Creation)

마지막으로 독특한 음색의 악기를 음원으로 사용하거나, 강아지가 짖는 소리를 음원으로 바꾸어 사용할 수도 있겠습니다.

Prompt 1 : Create an upbeat soundtrack with tabla, melody is uplifting and played on the saxophone.
프롬프트 1 : 타블라와 색소폰으로 uplifting한 멜로디를 연주하며, 경쾌한 사운드트랙을 만들어 주세요.

Prompt 2 : Create a saxophone howling, barking then electronic music with dogs barking.
프롬프트 2 : 색소폰이 울부짖고 짖는 듯한 소리에서 시작해, 전자 음악과 개들이 짖는 소리가 섞인 사운드를 만들어 주세요.

개 짖는 소리가 가능하다면, 냉장고나 선풍기 소리, 계곡이나 바닷가의 자연 소리로 음악을 만드는 것도 충분히 가능하겠네요.

7가지 기능을 살펴보니 어떠한가.

여기까지가 이번에 공개된 Fugatto의 7가지 기능이었습니다. 사실 우리가 상상할 수 있는 사운드와 관련된 거의 모든 기능이 구현되는 것 같습니다. 모든 종류의 사운드를 생성하고, 변형하고, 교체하고, 믹싱할 수 있는 것 같습니다.

하지만 모든 기능이 고퀄리티로 쉽게 구현되는지, 원하는 대로 섬세하게 컨트롤 되는지, UI/UX는 어떤지, 비용 이슈는 없는지 조금 더 기다리긴 해야겠죠.

웹 인터페이스

이번에 공개된 Fugatto의 웹 인터페이스를 생각하면 : 위쪽은 [사운드 레퍼런스], 가운데에 [프롬프트 입력창], 아래쪽에 [사운드 아웃풋]의 구조로 아주 심플한 모습입니다. 보여지는 아이콘을 보면, 추가적인 기능은 [속도 조절], [다듬기], [마이크 녹음] 기능 정도가 전부입니다.

심플 이즈 베스트라고 하지만, 세부 컨트롤과 편의성을 위한 친절한 GUI 메뉴는 아직 준비되어 있지는 않은 듯 해요.

[ 공개된 Fugatto의 웹 인터페이스 from NVIDIA ]

그럼에도 불구하고 정말 다양한 기능에 빠른 생성 속도를 생각하면, 당분간 가장 훌륭한 도구가 될 것 같습니다.

상상력을 자극하는 사운드

NVIDIA 팀에서는 다음과 같이 말하고 있습니다.

Fugatto allows users to create soundscapes it’s never seen before, such as a thunderstorm easing into a dawn with the sound of birds singing.
(노출된 훈련 데이터만 재현할 수 있는 대부분의 모델과 달리, Fugatto를 사용하면 새소리와 함께 새벽녘으로 잦아드는 뇌우와 같이 이전에 들어본 적 없는 사운드스케이프를 만들 수 있습니다.)

'새소리와 함께 새벽녘으로 잦아드는 뇌우'라니, 정말 경이로운 사운드의 이미지를 상상하게 합니다. 어떤 소리일까요? 바람과 나무 소리도 함께 들리지 않을까요?

[Midjourney V6.1 thunderstorm easing into a dawn with the sound of birds singing. ]

기대되는 분야들

Fugatto 가 활용 되기에 좋은 잠재적 응용 분야는 다음과 같습니다.

음악 : 다양한 스타일, 음성, 악기를 실험하여 노래를 프로토타입하거나 편집하는 데 도움을 줍니다.

광고 : 다른 악센트와 감정을 반영하여 다양한 지역을 대상으로 캠페인을 맞춤화할 수 있습니다.

언어 : 학습자에게 가족과 같은 친숙한 목소리를 사용하여 교육 도구를 개인화할 수 있습니다.

비디오 게임 : 개발자가 게임 플레이에 따라 사전 녹음된 오디오 자산을 동적으로 조정하거나 실시간으로 새로운 소리를 생성할 수 있게 합니다.

이미지 & 비디오 & 사운드 프롬프트

저는 AI 이미지와 AI 비디오 프롬프트를 초기부터 오랫동안 연구해왔습니다. 그런데 이번에 Fugatto 에서 선보인 자연어 프롬프트 가 정말 인상적이었습니다. 이미지 생성할 때 사용하는 것처럼, 사운드의 이미지적 특징과, 전반적인 무드에 대한 설명을 모두 자연어로 이해하고 있었기 때문입니다.

또한 GPT 챗봇과의 대화처럼, 자연스러운 대화 속에 이전의 맥락과 이전의 레퍼런스를 그대로 활용할 수 있다는 편의성도 정말 놀라웠습니다. 이미지나 비디오 생성 도구 중에서도 맥락 대화형 생성 캔버스를 지원하는 것은 가장 최근 업데이트 된 Luma Dream Machine의 Boards 정도가 아닐까 싶어요. 먼저 발전한 이미지 AI 분야에서도 흔치 않은 기능입니다.

루마 Luma updates - with Image Tools - Visual AI News - mintbear

Luma, 다양한 이미지 도구와 함께, 비디오 레벨업!

slashpage.com

이런 고급 기능을 Sound AI 에서도 활용 할 수 있게 된다니, 정말 기대가 됩니다.

언제 사용할 수 있을까

Fugatto는 오디오 생성에서 상당한 발전을 보여주지만, NVIDIA는 잠재적 오용에 대한 우려로 즉각적인 공개 계획은 발표하지 않았습니다. 조금 더 기다려보죠.

대신 Fugatto 는 같은 NVIDIA Inception 프로그램의 일원인 One Take Audio 와 협업하는 것으로 알려져 있는데, One Take Audio 에 대한 자세한 정보는 없지만 Mac 과 PC 용 오디오 서비스를 제공하는 프로그램 같습니다. 아래의 링크에서 대기 리스트에 가입할 수 있으니, 일단 이쪽에서 같이 기다려보시죠.

One Take Audio

The first-ever real time generative AI audio platform for Mac and PC.

onetakeaudio.com