第78章锥处囊中 (第2/3页)

天才一秒记住【第一中文网】地址：www.dyzww.cc

由家娃变异进化后优化出来的维斯顿，已远超微软那时的技术。

此世此时，巨头们在语音识别方面，还处于实验阶段。

而维斯顿语音输入法，在语音的前端处理涵盖的几个模块，已极度优秀。

说话人声检测模块，可以有效地检测说话人声开始和结束的时刻，并区分说话人声与背景声。

回声消除模块，让音箱播放音乐时，消除来自扬声器的音乐干扰，不暂停音乐而进行有效的语音识别。

唤醒词识别模块，是人类与机器交流的触发方式，就像日常生活中需要与其他人说话时，你会先喊一下那个人的名字。

麦克风阵列处理模块，对声源进行定位，增强说话人方向的信号，同时抑制其他方向的噪声信号。

语音增强模块，进一步增强说话人的语音，有效抑制环境噪声，降低远场语音的衰减。

威尔紧张到嘴里碎碎念：

“平时自命不凡，但我们在技术方面已完全落伍！

“这是手机软件，手持设备使用，属于近场环境，语音识别已属完美。

“厉害的是，维斯顿好像真有智慧一般，具有智能。联网安装到车载、智能家居等设备时，这款手机软件，竟然能自动优化匹配设备！

“一般语音识别系统，在车载、智能家居等远场环境中，声音传达到麦克风时会衰减得非常厉害，导致一些在近场环境中不值一提的问题被显着放大。

“需要前端处理技术能够克服噪声、混响、回声等问题，实现远场拾音…我们的技术做不到。

“但维斯顿轻易做到了！在远场环境下，几次训练数据，就能对模型进行持续优化，提升远场拾音的效果！

“这是神级产品！我们必须要联系上开发者！”

最先发现维斯顿厉害的工程师汤姆耸耸肩：“没有任何联系方式！

“…我和杰瑞认为，维斯顿是通过深度神经网络，采用高维特征训练来模拟，大幅提升了语音识别系统的识别率…

“实际解码过程中，仍采用传统的隐马尔可夫模型（hmm)、传统的统计语言模型和传统的动态加权有限状态转换机(wFSt)解码器…

“但在声学模型的输出分布计算时，完全用神经网络的输出后验概率，乘以一个先验概率来代替传统hmm中的Gmm的输出似然概率。

“这样的语音识别系统的误识别率，与Gmm语音识别系统的误识别率相比，下降了至少25%！

“我们部门正在研究的语音输入法完了！”

语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。

谷歌秘密成立的语音识别部门，在各个环节对维斯顿进行了测试。

自己设想中的产品完败，更别提产品都还没做出来。

杰瑞话比较少，直奔主题：“而且，在联网状态下，完美解决了‘鸡尾酒会问题’！”

“鸡尾酒会问题”显示的是人类的一种听觉能力。

能在多人场景的语音、噪声混合中，追踪并识别至少一个声音，即便在嘈杂环境下也不会影响正常交流。

在鸡尾酒会上与朋友交谈时，即使周围环境非常嘈杂，其音量甚至超过了朋友的声音，我们也能清晰地听到朋友说的内容。

若此时，人们的听觉器官突然受到某个刺激，如远处突然有人喊了自己的名字，或者在非母语环境下突然听到母语，即使声音出现在远处、音量很小，我们的耳朵也能立刻捕捉到。

机器缺乏这种能力。

汤姆点头：“我们的产品即使做出来，通过大量数据训练，有信心在识别一个人所讲的内容时，能够

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第78章 锥处囊中 (第2/3页)