haebom
Sign In
해봄의 아카이브
🔉 Meta, Voicebox 모델 공개. 이제 멀티링구얼 스피킹이 쉽게 가능!
Haebom
Jun 17, 2023
3y ago
구독 버튼을 통해 구독을 해주시면 알찬 소식으로 매일 받아보실 수 있습니다.
댓글과 이모지를 남겨주시면 큰 힘이 됩니다. 공유까지 해주시면 더 좋구요!
구독하기
공유하기
•
Meta AI의 연구팀은 generative AI for speech 분야에서 의미있는 성과를 발표
•
Voicebox라는 모델은 훈련 목적으로 특정 작업에 한정되지 않은 상태에서도 최첨단 성능을 발휘할 수 있는 최초의 모델
•
Voicebox는 이미지나 텍스트와 같은 generative 시스템과 유사하게 다양한 스타일로 오디오 클립을 생성할 수 있다. 또한 스크래치에서 생성하거나 주어진 샘플을 수정 가능
•
Voicebox는 여러 가지 활용 사례에 적용될 수 있으며, 텍스트 음성 합성, 다국어 스타일 변환, 음성 소음 제거 및 편집, 다양한 음성 샘플링 등이 가능함
◦
Voicebox는 Flow Matching이라는 방법을 기반으로 하며, 다른 모델보다 우수한 성능이 나타남
◦
기존의 음성 합성기의 한계를 극복하기 위해 Voicebox는 다양한 음성 데이터에서 학습하고 다양성이 있는 음성 데이터로부터 학습할 수 있는 비결정적 매핑을 사용
◦
Voicebox는 보다 현실적이고 다양한 언어와 스타일을 가진 음성을 생성할 수 있다.
•
Meta는 Voicebox의 잠재적인 남용과 예기치 않은 피해에 대비하기 위해 책임을 가지고 연구를 공유하고 있으며, Voicebox 생성된 오디오 샘플과 연구 논문을 공유
◦
논문 바로가기 :
https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/
Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale – Meta Research | Meta Research
This paper presents Voicebox, the most versatile text-conditioned speech generative model at scale. Voicebox is trained on a text-guided speech infilling task, where the goal is to generate masked speech given its surrounding audio and text transcript.
research.facebook.com
•
Voicebox는 generative AI 연구 분야에서 중요한 발전을 나타내며, 다른 연구자들이 이를 기반으로 발전시키는 것을 기대한다.
•
Meta AI가 오픈소스 공개하겠다는 것도 그렇고 의외로 미래지향적인 행동을 많이 보여주는 듯 (기대 안했는데)
메타, 상업용 대형언어모델 오픈소스로 공개한다
메타가 새로운 대형언어모델(LLM)을 오픈소스로 내놓는다. 앞서 공개한 오픈소스 LLM ‘라마(LLaMA)’와 달리 상업적으로 사용할 수 있는 모델이다.이를 통해 독자적인 인공지능(AI) 생태계를 조성, 구글이나 오픈AI 진영에 대항하려는 의도로 읽힌다. 디인포메이션은 15일(현지시간) 내부 사정에 정통한 소식통의 말을 인용해 메타가 기존 '라마'의 다음 버전으로 상업적으로 사용할 수 있는 새로운 LLM 모델을 개발해 공개할 예정이라고 보도했다.메타의 이러한 움직임은 구글이나 오픈AI의 독점적이고 폐쇄적인 LLM의 대안을 찾는 AI
aitimes.com
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe