Meta는 SeamlessM4T라는 기초적인 다국어 및 다작업 모델을 소개했습니다. 이 모델은 음성과 텍스트 간에 자동으로 번역하고 변환합니다. 주요 기능은 다음과 같습니다.
•
100개 언어에 대한 자동 음성 인식
•
거의 100개의 입력 및 출력 언어에 대한 음성-텍스트 번역
•
100개의 입력 언어와 35개(영어 포함)의 출력 언어를 지원하는 음성-음성 번역
•
거의 100개 언어에 대한 텍스트-텍스트 번역
•
거의 100개의 입력 언어와 35개(영어 포함)의 출력 언어를 지원하는 텍스트-음성 번역
이 모델은 세계 각국의 언어를 연결하고, 다양한 언어를 사용하는 사람들이 효과적으로 의사소통할 수 있게 해줍니다. 또한, 이 모델은 CC BY-NC 4.0 라이선스로 공개되어 연구자와 개발자가 이 작업을 기반으로 할 수 있게 하였습니다. (이제 진정한 Open은 누구인가?)
이번 발표가 가지는 의미
•
자동 음성 인식의 진전: SeamlessM4T는 음성 인식, 음성-텍스트, 음성-음성, 텍스트-음성, 텍스트-텍스트 번역을 지원하는 단일 모델에서 최첨단 결과를 달성합니다.
•
다국어 지원: 이 모델은 저자원 및 중간자원 언어의 성능을 크게 향상시키며, 영어, 스페인어, 독일어와 같은 고자원 언어에서도 강력한 성능을 유지합니다.
•
책임감 있는 AI 구축: Meta는 모델이 정확해야 하며, 사람이 말하려는 것을 잘못 전사하거나 유해하거나 부정확한 출력을 생성할 수 있는 위험을 인식하고 있습니다. 이러한 문제를 해결하기 위해 독성 및 성별 편향 연구를 수행하였습니다.
실제로 써보면?
•
아직은 아쉬운 부분이 많습니다. 한국어, 일본어, 중국어 등 독자적 언어체계를 가진 곳일 수록 성능이 현저하게 떨어지는 것을 확인 할 수 있습니다.
•
반면에 영어, 스페인어, 독일어, 프랑스어, 이탈리아어, 러시아어 등은 상당히 높은 인식율과 정확성을 보여줍니다.
•
오픈소스로 공개된 만큼 추후 다양한 방향으로 발전이 일어날 것으로 보이며 음성 연구의 특이점이 될 수 있을 것으로 보입니다.
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!