Sign In
해봄의 아카이브

Google, 대규모 음성 언어 모델 AudioPaLM 발표

Haebom
구글이 텍스트 기반 및 음성 기반 언어 모델인 PaLM-2와 AudioLM의 통합 결과물인 Audio PaLM을 발표
음성 인식 및 음성 대 음성 번역 등의 응용 프로그램에서 텍스트와 음성을 동시에 처리하고 생성할 수 있는 통합 다중 모달 아키텍처가 특징
AudioPaLM은 AudioLM에서 얻은 Speaker의 신원과 강세 등 부가적인 언어 정보를 보존하는 능력과, PaLM-2와 같은 텍스트 기반 언어 모델이 가지는 언어 지식을 동시에 활용
쉽게 말하면 동시 통번역의 시대가 멀지 않았다.
모델은 음성 번역 작업에서 기존 시스템에 비해 탁월한 성능을 보여줌
학습 과정에서 입력/대상 언어 조합이 없는 여러 언어에 대해 제로샷 음성 대 텍스트 번역을 수행 가능
AudioPaLM은 짧은 음성 프롬프트를 기반으로 언어 간 음성 변환 등의 오디오 언어 모델 기능 구현 가능
구독 버튼을 통해 구독을 해주시면 알찬 소식으로 매일 받아보실 수 있습니다.
댓글과 이모지를 남겨주시면 큰 힘이 됩니다. 공유까지 해주시면 더 좋구요!
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe
1
OAKPDNOW
이거 진짜 대박사건이네! AI 가 멀티링구얼 스피킹을 하게 해주면 너무 좋을 듯!! 세계와 경험이 확장되니까! :)
See latest comments