×
嵌入式 > 技术百科 > 详情

UC Berkeley开发出通过电极采集肌肉活动合成数字语音

发布时间:2024-05-20 发布时间:
|

加州大学伯克利分校(UC Berkeley)的研究人员表示,他们率先使用无声的言语和传感器来训练人工智能,收集肌肉活动。使用电解法探测到无声的言语,电极放在脸部和喉咙上。该模型侧重于研究人员所称的数字语音,以预测词汇和生成合成语音。


研究人员认为,他们的方法可以为无法制作有声语音的人提供一些应用程序,并可以支持人工智能助手或其他响应语音指令的设备的语音探测。


“数字语音具有广泛的潜在应用, ”该团队的论文写道。"例如,它可以用来制造一种类似蓝牙耳机的装置,使人们能够进行电话交谈,而不干扰周围的人。在环境太大,无法听到声音或保持缄默很重要的情况下,这种装置也可能有用" 。


另一个从无声的语音留言中捕捉文字的人工智能例子可以为监控工具提供动力,也可以支持聋人使用案例。


加州大学伯克利分校(UC Berkeley)的研究人员在他们的无声语音预测中使用了一种方法, “声音输出目标从语音录音转移到相同话语的无声录音。 ”然后使用WaveNet解码进行语音预测。


与接受过语音环管数据培训的基线相比,该方法使书籍中句子的字词错误率下降了64%至4% ,与基线相比错误减少了95% 。为进一步推动这一领域的工作,研究人员公开获取了近20小时面部环管数据集。


戴维·加迪(David Gaddy)和丹·克莱因(Dan Klein)上周在网上发表了一篇题为《无声言论的数字声音》(Digital Voicing of Silent Speech)的论文,获得了自然语言处理经验方法最佳论文奖。Hugging Face公司因其在开放源变形金刚图书馆的工作而获得组织者颁发的最佳Demo Paper奖。在EMNLP的其他工作中,研究人员最近采用了一种讽刺探测模型,在多式联运推特数据集方面取得了最先进的绩效。


『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
FPGA及CPLD应用领域不断拓展