国内最新的智能语音技术作用表明:机器已能以较高的准确率完成语音转化文字、多语种同步翻译、甚至模仿某个人的声线说话,以假乱真。
在上千人的会场,多位嘉宾近3小时的演说交流,全程无速记员,演说内容却能实时转成文字显现在大屏幕上。
近来在声讯年度发布会上看到,演说中除了单个人名地名的出错,以及说话者白话表达中冗余的词汇外,绝大部分演说内容都被解释得十分准确,并能同步翻译成英、日、韩等多种语言。
在智能车载体系的展示中,面临驾驶员任性地打断、随意地插嘴,车载体系竟能通过上下文语境“秒懂”驾驶员意图,甚至对成心“刁难”的极简指令,也能活络听懂“言外之意”,导航、听歌、团票都不在话下。
据介绍,这些都是依据深度神经网络的语音辨认技术来完毕的。语音辨认技术,简单说就是让计算机“听懂”人类的语音,将语音中包括的文字信息提取出来。该项技术在智能计算机体系中扮演着重要人物,相当于给计算机装上了“耳朵”,使其完成人机通讯和交互,现在语音辨认准确率可抵达97%以上。
“跟着万物互联时代到来,以语音为主、键盘触摸为辅的人机交互正逐渐成为刚需。
未来5到10年,人工智能会像水和电相同成为我们日子的必需品,深化改动我们的世界。
聪明的机器人要能听会说,语音组成技术就是“让机器像人相同开口说话”,它是触及声学、语言学、数字信号处理、计算机科学等多个学科的一项信息处理的前沿技术。
现在,我国在智能语音技术上现已完毕了5到8米的远场辨认、多轮交互对话、免唤醒词交流、交流随时打断等多项打破。
发现语音组成功用不只能将文字信息转化为可听的动态信息,还能将某个人的声线特征收入语音库中,然后用很短的时刻将文本用被模仿者的声线特征读出来,确有以假乱真之效。