第一中文网

第78章 锥处囊中 (第2/3页)

天才一秒记住【第一中文网】地址:www.dyzww.cc

由家娃变异进化后优化出来的维斯顿,已远超微软那时的技术。

此世此时,巨头们在语音识别方面,还处于实验阶段。

而维斯顿语音输入法,在语音的前端处理涵盖的几个模块,已极度优秀。

说话人声检测模块,可以有效地检测说话人声开始和结束的时刻,并区分说话人声与背景声。

回声消除模块,让音箱播放音乐时,消除来自扬声器的音乐干扰,不暂停音乐而进行有效的语音识别。

唤醒词识别模块,是人类与机器交流的触发方式,就像日常生活中需要与其他人说话时,你会先喊一下那个人的名字。

麦克风阵列处理模块,对声源进行定位,增强说话人方向的信号,同时抑制其他方向的噪声信号。

语音增强模块,进一步增强说话人的语音,有效抑制环境噪声,降低远场语音的衰减。

威尔紧张到嘴里碎碎念:

“平时自命不凡,但我们在技术方面已完全落伍!

“这是手机软件,手持设备使用,属于近场环境,语音识别已属完美。

“厉害的是,维斯顿好像真有智慧一般,具有智能。联网安装到车载、智能家居等设备时,这款手机软件,竟然能自动优化匹配设备!

“一般语音识别系统,在车载、智能家居等远场环境中,声音传达到麦克风时会衰减得非常厉害,导致一些在近场环境中不值一提的问题被显着放大。

“需要前端处理技术能够克服噪声、混响、回声等问题,实现远场拾音…我们的技术做不到。

“但维斯顿轻易做到了!在远场环境下,几次训练数据,就能对模型进行持续优化,提升远场拾音的效果!

“这是神级产品!我们必须要联系上开发者!”

最先发现维斯顿厉害的工程师汤姆耸耸肩:“没有任何联系方式!

“…我和杰瑞认为,维斯顿是通过深度神经网络,采用高维特征训练来模拟,大幅提升了语音识别系统的识别率…

“实际解码过程中,仍采用传统的隐马尔可夫模型(hmm)、传统的统计语言模型和传统的动态加权有限状态转换机(wFSt)解码器…

“但在声学模型的输出分布计算时,完全用神经网络的输出后验概率,乘以一个先验概率来代替传统hmm中的Gmm的输出似然概率。

“这样的语音识别系统的误识别率,与Gmm语音识别系统的误识别率相比,下降了至少25%!

“我们部门正在研究的语音输入法完了!”

语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。

谷歌秘密成立的语音识别部门,在各个环节对维斯顿进行了测试。

自己设想中的产品完败,更别提产品都还没做出来。

杰瑞话比较少,直奔主题:“而且,在联网状态下,完美解决了‘鸡尾酒会问题’!”

“鸡尾酒会问题”显示的是人类的一种听觉能力。

能在多人场景的语音、噪声混合中,追踪并识别至少一个声音,即便在嘈杂环境下也不会影响正常交流。

在鸡尾酒会上与朋友交谈时,即使周围环境非常嘈杂,其音量甚至超过了朋友的声音,我们也能清晰地听到朋友说的内容。

若此时,人们的听觉器官突然受到某个刺激,如远处突然有人喊了自己的名字,或者在非母语环境下突然听到母语,即使声音出现在远处、音量很小,我们的耳朵也能立刻捕捉到。

机器缺乏这种能力。

汤姆点头:“我们的产品即使做出来,通过大量数据训练,有信心在识别一个人所讲的内容时,能够

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

队友都是MVP主角不配拥有 娱乐:雪藏五年,复出成为资本 直播:连麦吗?全网狙击那种 神奇笔记本助我成神 年代:开局刷传奇装备发财 宝贝乖乖让我疼 东风导弹车都有,你说这是拍电影