해봄의 아카이브

모든 언어를 인식하고, 번환하고, 번역할 수 있는 시대가 점점 다가 옵니다.

Haebom

Aug 23, 20233y ago

심리스M4T 데모 영상

Meta는 SeamlessM4T라는 기초적인 다국어 및 다작업 모델을 소개했습니다. 이 모델은 음성과 텍스트 간에 자동으로 번역하고 변환합니다. 주요 기능은 다음과 같습니다.

•

100개 언어에 대한 자동 음성 인식

•

거의 100개의 입력 및 출력 언어에 대한 음성-텍스트 번역

•

100개의 입력 언어와 35개(영어 포함)의 출력 언어를 지원하는 음성-음성 번역

•

거의 100개 언어에 대한 텍스트-텍스트 번역

•

거의 100개의 입력 언어와 35개(영어 포함)의 출력 언어를 지원하는 텍스트-음성 번역

이 모델은 세계 각국의 언어를 연결하고, 다양한 언어를 사용하는 사람들이 효과적으로 의사소통할 수 있게 해줍니다. 또한, 이 모델은 CC BY-NC 4.0 라이선스로 공개되어 연구자와 개발자가 이 작업을 기반으로 할 수 있게 하였습니다. (이제 진정한 Open은 누구인가?)

이번 발표가 가지는 의미

•

자동 음성 인식의 진전: SeamlessM4T는 음성 인식, 음성-텍스트, 음성-음성, 텍스트-음성, 텍스트-텍스트 번역을 지원하는 단일 모델에서 최첨단 결과를 달성합니다.

•

다국어 지원: 이 모델은 저자원 및 중간자원 언어의 성능을 크게 향상시키며, 영어, 스페인어, 독일어와 같은 고자원 언어에서도 강력한 성능을 유지합니다.

•

책임감 있는 AI 구축: Meta는 모델이 정확해야 하며, 사람이 말하려는 것을 잘못 전사하거나 유해하거나 부정확한 출력을 생성할 수 있는 위험을 인식하고 있습니다. 이러한 문제를 해결하기 위해 독성 및 성별 편향 연구를 수행하였습니다.

실제로 써보면?

•

아직은 아쉬운 부분이 많습니다. 한국어, 일본어, 중국어 등 독자적 언어체계를 가진 곳일 수록 성능이 현저하게 떨어지는 것을 확인 할 수 있습니다.

•

반면에 영어, 스페인어, 독일어, 프랑스어, 이탈리아어, 러시아어 등은 상당히 높은 인식율과 정확성을 보여줍니다.

•

오픈소스로 공개된 만큼 추후 다양한 방향으로 발전이 일어날 것으로 보이며 음성 연구의 특이점이 될 수 있을 것으로 보입니다.

Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations | Meta

SeamlessM4T allows people to communicate effortlessly through speech and text across different languages.

about.fb.com

'haebom' 구독하기

사이트를 구독하면 새 포스트 등 최신 업데이트를 알림과 메일로 가장 먼저 받아보실 수 있습니다.
Slashpage에 가입하고 'haebom'을 구독하세요!