Sign In
해봄의 아카이브

모든 언어를 인식하고, 번환하고, 번역할 수 있는 시대가 점점 다가 옵니다.

Haebom
심리스M4T 데모 영상
Meta는 SeamlessM4T라는 기초적인 다국어 및 다작업 모델을 소개했습니다. 이 모델은 음성과 텍스트 간에 자동으로 번역하고 변환합니다. 주요 기능은 다음과 같습니다.
100개 언어에 대한 자동 음성 인식
거의 100개의 입력 및 출력 언어에 대한 음성-텍스트 번역
100개의 입력 언어와 35개(영어 포함)의 출력 언어를 지원하는 음성-음성 번역
거의 100개 언어에 대한 텍스트-텍스트 번역
거의 100개의 입력 언어와 35개(영어 포함)의 출력 언어를 지원하는 텍스트-음성 번역
이 모델은 세계 각국의 언어를 연결하고, 다양한 언어를 사용하는 사람들이 효과적으로 의사소통할 수 있게 해줍니다. 또한, 이 모델은 CC BY-NC 4.0 라이선스로 공개되어 연구자와 개발자가 이 작업을 기반으로 할 수 있게 하였습니다. (이제 진정한 Open은 누구인가?)

이번 발표가 가지는 의미

자동 음성 인식의 진전: SeamlessM4T는 음성 인식, 음성-텍스트, 음성-음성, 텍스트-음성, 텍스트-텍스트 번역을 지원하는 단일 모델에서 최첨단 결과를 달성합니다.
다국어 지원: 이 모델은 저자원 및 중간자원 언어의 성능을 크게 향상시키며, 영어, 스페인어, 독일어와 같은 고자원 언어에서도 강력한 성능을 유지합니다.
책임감 있는 AI 구축: Meta는 모델이 정확해야 하며, 사람이 말하려는 것을 잘못 전사하거나 유해하거나 부정확한 출력을 생성할 수 있는 위험을 인식하고 있습니다. 이러한 문제를 해결하기 위해 독성 및 성별 편향 연구를 수행하였습니다.

실제로 써보면?

아직은 아쉬운 부분이 많습니다. 한국어, 일본어, 중국어 등 독자적 언어체계를 가진 곳일 수록 성능이 현저하게 떨어지는 것을 확인 할 수 있습니다.
반면에 영어, 스페인어, 독일어, 프랑스어, 이탈리아어, 러시아어 등은 상당히 높은 인식율과 정확성을 보여줍니다.
오픈소스로 공개된 만큼 추후 다양한 방향으로 발전이 일어날 것으로 보이며 음성 연구의 특이점이 될 수 있을 것으로 보입니다.
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe