10 月 25-30 日,是由国际语音通信协会 ISCA 组织的语音研究领域的顶级会议 INTERSPEECH 2020 在中国上海举办,本次会议主题为“Cognitive Intelligence for Speech Processing”。思必驰作为国内领先的对话式人工智能平台公司参加该国际顶会,组建的“xiaochi”队伍在 2020 国际口音英语语音识别赛上表现亮眼,思必驰高级技术总监薛少飞也在 INTERSPEECH 工业论坛进行了分享。

 

伴随着 INTERSPEECH 2020 开展的 2020 AESR,即“INTERSPEECH 2020 口音英语语音识别挑战赛(Interspeech2020 Accented English Speech Recognition)”,向参赛者开放八种口音英文数据,设置了“Track1- 口音种类识别”和“Track2- 口音英语语音识别”两个赛道。由思必驰组建的“xiaochi”队伍表现优异,分别获得“口音种类识别”第一名(全球共 30 个队伍参赛),和“口音英语语音识别”第二名(全球 42 个队伍参赛)。

 

 

 

在“Track1- 口音种类识别”技术挑战赛中,参赛队伍需要使用官方提供的各种口音英文的训练数据,训练语种分类模型。xiaochi 队伍的准确率高出第二名 11 个百分点,最终摘得冠军。

 

数据策略上,xiaochi 对 8 种口音训练音频进行变语速数据增强,利用 kaldi 工具模拟噪声和远场,使用 8 种口音训练数据+librispeech 数据训练 TTS 合成器,并生成 8 种口音训练音频,最后对测试音频采用 sox 变语速后与原始音频拼接。模型训练时,采用了多机多卡的并行训练策略,有效降低了模型迭代和实验速度。最终我们采用深层的 TDNN 模型,结合 AAM loss 等进行优化,来训练 8 种口音的 8 分类模型。

 

经过多个不同策略组合的实验测试,最终发现,“利用 PPG 等特征,结合基于 tts 的数据生成,多嵌入多层联合优化”等方法,能够最高效快速识别不同口音种类。这也为未来业界进行多语种混合识别提供了很好的参考策略。

 

思必驰语音应用负责人薛少飞

 

参与 INTERSPEECH 工业论坛并在线分享

今年 INTERSPEECH 2020 首次推出虚拟展会,以直播的方式举办在线论坛。思必驰高级技术总监、语音应用技术负责人薛少飞,10 月 29 日在线分享思必驰在语音识别、语音唤醒、音频检测等语音交互关键技术方面的新进展。