해봄의 아카이브

Google, 대규모 음성 언어 모델 AudioPaLM 발표

Haebom

Jun 28, 20233y ago

•

구글이 텍스트 기반 및 음성 기반 언어 모델인 PaLM-2와 AudioLM의 통합 결과물인 Audio PaLM을 발표

◦

음성 인식 및 음성 대 음성 번역 등의 응용 프로그램에서 텍스트와 음성을 동시에 처리하고 생성할 수 있는 통합 다중 모달 아키텍처가 특징

◦

AudioPaLM은 AudioLM에서 얻은 Speaker의 신원과 강세 등 부가적인 언어 정보를 보존하는 능력과, PaLM-2와 같은 텍스트 기반 언어 모델이 가지는 언어 지식을 동시에 활용

◦

쉽게 말하면 동시 통번역의 시대가 멀지 않았다.

•

모델은 음성 번역 작업에서 기존 시스템에 비해 탁월한 성능을 보여줌

◦

학습 과정에서 입력/대상 언어 조합이 없는 여러 언어에 대해 제로샷 음성 대 텍스트 번역을 수행 가능

◦

AudioPaLM은 짧은 음성 프롬프트를 기반으로 언어 간 음성 변환 등의 오디오 언어 모델 기능 구현 가능

•

최근 Meta에서 VoiceBox도 참고하시면 좋을듯

구독 버튼을 통해 구독을 해주시면 알찬 소식으로 매일 받아보실 수 있습니다.

댓글과 이모지를 남겨주시면 큰 힘이 됩니다. 공유까지 해주시면 더 좋구요!

'안광섭 ex)haebom' 구독하기

사이트를 구독하면 새 포스트 등 최신 업데이트를 알림과 메일로 가장 먼저 받아보실 수 있습니다.
Slashpage에 가입하고 '안광섭 ex)haebom'을 구독하세요!

OAKPDNOW

Jul 2, 2023

이거 진짜 대박사건이네! AI 가 멀티링구얼 스피킹을 하게 해주면 너무 좋을 듯!! 세계와 경험이 확장되니까! :)

See latest comments