本研究重点关注实时语音助手系统的开发,该系统正日益普及,以提高信息的可访问性。由于孟加拉语是一种资源匮乏的语言,且方言种类繁多,因此此类系统的开发进展有限。现有系统并未针对实时应用进行优化,且仅专注于标准孟加拉语。本文介绍了 BanglaTalk,这是首个针对孟加拉方言的实时语音助手系统。BanglaTalk 采用客户端-服务器架构,并使用实时传输协议 (RTP) 来确保低延迟通信。为了应对方言差异,我们推出了 BRDialect,这是一个基于十种孟加拉方言对 IndicWav2Vec 模型进行微调而开发的方言感知自动语音识别系统。在 RegSpeech12 数据集上,BRDialect 的表现比基准自动语音识别模型高出 12.41% 至 33.98%。此外,BanglaTalk 可在低至 24 kbps 的带宽下运行,同时保持 4.9 秒的平均端到端延迟。低带宽占用和极低的端到端延迟使该系统经济高效,并支持实时用例的交互,从而为各类孟加拉语使用者提供全面且便捷的语音技术。