每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

BanglaTalk:面向孟加拉方言的实时语音辅助

Created by
  • Haebom

作者

贾基尔·哈桑、舒巴斯·罗伊·迪普塔

BanglaTalk:第一个针对孟加拉方言的实时语音助手系统。

大纲

本研究重点关注实时语音助手系统的开发,该系统正日益普及,以提高信息的可访问性。由于孟加拉语是一种资源匮乏的语言,且方言种类繁多,因此此类系统的开发进展有限。现有系统并未针对实时应用进行优化,且仅专注于标准孟加拉语。本文介绍了 BanglaTalk,这是首个针对孟加拉方言的实时语音助手系统。BanglaTalk 采用客户端-服务器架构,并使用实时传输协议 (RTP) 来确保低延迟通信。为了应对方言差异,我们推出了 BRDialect,这是一个基于十种孟加拉方言对 IndicWav2Vec 模型进行微调而开发的方言感知自动语音识别系统。在 RegSpeech12 数据集上,BRDialect 的表现比基准自动语音识别模型高出 12.41% 至 33.98%。此外,BanglaTalk 可在低至 24 kbps 的带宽下运行,同时保持 4.9 秒的平均端到端延迟。低带宽占用和极低的端到端延迟使该系统经济高效,并支持实时用例的交互,从而为各类孟加拉语使用者提供全面且便捷的语音技术。

Takeaways, Limitations

Takeaways:
开发第一个针对孟加拉方言的实时语音支持系统。
方言识别 ASR 系统 BRDialect 的开发及性能改进演示
适合低带宽和低端到端延迟的实时使用
为孟加拉语社区提供全面且易于访问的语音技术。
Limitations:
论文中没有指定 Limitations。
👍