haebom
Sign In
해봄의 아카이브
Google, 대규모 음성 언어 모델 AudioPaLM 발표
Haebom
Jun 28, 2023
3y ago
•
구글이 텍스트 기반 및 음성 기반 언어 모델인 PaLM-2와 AudioLM의 통합 결과물인 Audio PaLM을 발표
◦
음성 인식 및 음성 대 음성 번역 등의 응용 프로그램에서 텍스트와 음성을 동시에 처리하고 생성할 수 있는 통합 다중 모달 아키텍처가 특징
◦
AudioPaLM은 AudioLM에서 얻은 Speaker의 신원과 강세 등 부가적인 언어 정보를 보존하는 능력과, PaLM-2와 같은 텍스트 기반 언어 모델이 가지는 언어 지식을 동시에 활용
◦
쉽게 말하면
동시 통번역의 시대가 멀지 않았다.
•
모델은 음성 번역 작업에서 기존 시스템에 비해 탁월한 성능을 보여줌
◦
학습 과정에서 입력/대상 언어 조합이 없는 여러 언어에 대해 제로샷 음성 대 텍스트 번역을 수행 가능
◦
AudioPaLM은 짧은 음성 프롬프트를 기반으로 언어 간 음성 변환 등의 오디오 언어 모델 기능 구현 가능
AudioPaLM
google-research.github.io
•
최근 Meta에서 VoiceBox도 참고하시면 좋을듯
🔉 Meta, Voicebox 모델 공개. 이제 멀티링구얼 스피킹이 쉽게 가능!
구독 버튼을 통해 구독을 해주시면 알찬 소식으로 매일 받아보실 수 있습니다. 댓글과 이모지를 남겨주시면 큰 힘이 됩니다. 공유까지 해주시면 더 좋구요!
slashpage.com
구독 버튼을 통해 구독을 해주시면 알찬 소식으로 매일 받아보실 수 있습니다.
댓글과 이모지를 남겨주시면 큰 힘이 됩니다. 공유까지 해주시면 더 좋구요!
구독하기
공유하기
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe
1
OAKPDNOW
Jul 2, 2023
이거 진짜 대박사건이네! AI 가 멀티링구얼 스피킹을 하게 해주면 너무 좋을 듯!! 세계와 경험이 확장되니까! :)
See latest comments