落宝金钱之人工智能 - 第78章锥处囊中

史蒂芬在房间和家娃一起调试写出来的雷电浏览器。

亨利和女儿在客厅吵嘴。

“你告诉怀特，那晚我们在蓝猫小舍了？”

夏洛特觉得老爹又想借题发挥：

“是的，但这又没什么。”

亨利痛苦咆哮：“天呐！

“夏洛特，你不能再见他了，明白吗！”

“为什么？”

亨利大叫：“因为你的话，他现在觉得我杀了他爸！

“你没觉得有什么问题吗？我觉得问题大了！”

夏洛特冷不丁：“除非真是你干的。”

亨利捂住胸口：“夏洛特，你觉得，我能做出那样的事来吗？”

夏洛特：“你不能阻止我见别人！”

“我可以！如果有必要，我可以把你送去非洲的寄宿学校，不要逼我！”

夏洛特根本不怕亨利，嗤笑一声：

“你很喜欢打受害者的苦情牌，是吧？！”

亨利很懵：“抱歉，‘受害者的苦情牌’？”

夏洛特：“作为一家之主，你总是不断重复‘我好惨啊’，这样的老调重弹！”

亨利痛苦：“就因为我不喜欢你吸嗨后的口不择言吗？

“我所谓的女儿，要像敌人一样对待我吗？”

夏洛特正想无情戳穿他中年人的装模作样，突然看到史蒂芬的卧室门，啪哒一声打开，连忙闭嘴。

秀才遇到兵，耍嘴皮子的最怕动手揍人的。

史蒂芬戴着耳塞，从冰箱里拿出牛奶，自顾自返回卧室，才不管叛逆期的小妹和中年危机的老爹。

——

谷歌大厦。

语音识别部。

虽早已过下班时间，但办公室里依然灯火通明。

“…使用了非常先进的语音识别技术，几乎将人机对话这一设想变成现实！

“瞧，在断网状态下，它都能借助机器的识别和理解，将人类的语音信号转换成对应文本。

“…前端的信号处理、中间的语音、语义识别和对话管理，以及后期的语音合成…简直是艺术品！”

谷歌的两位工程师测试着维斯顿语音输入法，脸上露出朝圣般的崇拜，还有幻想中的技术被人实现的惊讶。

“我已经喊老大过来了，咱们继续测试！

“从小词汇量到大词汇量，再到超大词汇量；

“从限定语境到弹性语境，再到任意语境；

“从安静环境到近场环境，再到远场嘈杂环境；

“从朗读环境到口语环境，再到任意对话环境；

“从单语种到多语种，再到多…

“哇喔！断网时，表现优秀；联网时，堪称完美！”

谷歌语音识别部门的老大，首席工程师威尔，带着一群技术人员围过来。

众人对两人所说的测试结果难以置信。

“我们的语音输入法，还处于对每个建模单元的统计概率模型进行描述阶段，哪里冒出来的小公司，meta？已经推出如此成熟的产品了！”

威尔手心全是汗，花了公司几千万，没开发出最先进的产品，终会有人担责。

“是和我们一样，采用高斯混合模型（Gmm)，用海量数据训练出来的吗？”

威尔抿着嘴唇，盯着手下操作，“应该不是Gmm，那本质上是一种浅层网络建模，对特征的状态空间分布不能充分描述…特征维度一般也就几十维，对特征之间的相关性也不能进行充分描述…”

在周杰前世，直到2011年，微软公司基于深度神经网络，才在语音识别系统研究方面取得阶段性的成果。

由家娃变异进化后优化出来的维斯顿，已远超微软那时的技术。

此世此时，巨头们在语音识别方面，还处于实验阶段。

而维斯顿语音输入法，在语音的前端处理涵盖的几个模块，已极度优秀。

说话人声检测模块，可以有效地检测说话人声开始和结束的时刻，并区分说话人声与背景声。

回声消除模块，让音箱播放音乐时，消除来自扬声器的音乐干扰，不暂停音乐而进行有效的语音识别。

唤醒词识别模块，是人类与机器交流的触发方式，就像日常生活中需要与其他人说话时，你会先喊一下那个人的名字。

麦克风阵列处理模块，对声源进行定位，增强说话人方向的信号，同时抑制其他方向的噪声信号。

语音增强模块，进一步增强说话人的语音，有效抑制环境噪声，降低远场语音的衰减。

威尔紧张到嘴里碎碎念：

“平时自命不凡，但我们在技术方面已完全落伍！

“这是手机软件，手持设备使用，属于近场环境，语音识别已属完美。

“厉害的是，维斯顿好像真有智慧一般，具有智能。联网安装到车载、智能家居等设备时，这款手机软件，竟然能自动优化匹配设备！

“一般语音识别系统，在车载、智能家居等远场环境中，声音传达到麦克风时会衰减得非常厉害，导致一些在近场环境中不值一提的问题被显着放大。

“需要前端处理技术能够克服噪声、混响、回声等问题，实现远场拾音…我们的技术做不到。

“但维斯顿轻易做到了！在远场环境下，几次训练数据，就能对模型进行持续优化，提升远场拾音的效果！

“这是神级产品！我们必须要联系上开发者！”

最先发现维斯顿厉害的工程师汤姆耸耸肩：“没有任何联系方式！

“…我和杰瑞认为，维斯顿是通过深度神经网络，采用高维特征训练来模拟，大幅提升了语音识别系统的识别率…

“实际解码过程中，仍采用传统的隐马尔可夫模型（hmm)、传统的统计语言模型和传统的动态加权有限状态转换机(wFSt)解码器…

“但在声学模型的输出分布计算时，完全用神经网络的输出后验概率，乘以一个先验概率来代替传统hmm中的Gmm的输出似然概率。

“这样的语音识别系统的误识别率，与Gmm语音识别系统的误识别率相比，下降了至少25%！

“我们部门正在研究的语音输入法完了！”

语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。

谷歌秘密成立的语音识别部门，在各个环节对维斯顿进行了测试。

自己设想中的产品完败，更别提产品都还没做出来。

杰瑞话比较少，直奔主题：“而且，在联网状态下，完美解决了‘鸡尾酒会问题’！”

“鸡尾酒会问题”显示的是人类的一种听觉能力。

能在多人场景的语音、噪声混合中，追踪并识别至少一个声音，即便在嘈杂环境下也不会影响正常交流。

在鸡尾酒会上与朋友交谈时，即使周围环境非常嘈杂，其音量甚至超过了朋友的声音，我们也能清晰地听到朋友说的内容。

若此时，人们的听觉器官突然受到某个刺激，如远处突然有人喊了自己的名字，或者在非母语环境下突然听到母语，即使声音出现在远处、音量很小，我们的耳朵也能立刻捕捉到。

机器缺乏这种能力。

汤姆点头：“我们的产品即使做出来，通过大量数据训练，有信心在识别一个人所讲的内容时，能够体现出较高的精度。

“但，当说话人数为两人或两人以上时，识别精度就会大打折扣。

“在给定多人混合语音信号的情况下，从中分离出特定说话人的信号和其他噪声，我们基本能做到。

“一旦需要同时分离出说话的每个人的独立语音信号…我们，无能为力。”

汤姆语气沮丧：“在我们的设想中，即使再多训练数据的积累和训练过程的打磨，也没幻想过能基本解决‘鸡尾酒会问题’！”

威尔眼神阴鸷：“这款产品我们必须拿下！

“语音搜索、语音翻译、机器朗读、语音导航、语音拍照、语音拨号、语音唤醒、智能语音操控…语音识别技术大有用武之地！

“更何况，维斯顿能真正做到像正常人类一样与其他人流畅沟通、自由交流！

“诸位，仔细想想，语音识别的优势和价值一旦被挖掘、发挥出来，必将对即时通信、购物和搜索等垂直应用产生的巨大影响。

“其中的市场，蕴含多大的利益！”

都是业内人士，知道老大的意思，众人眼神对视后默默点头。

前世，苹果公司的ioS手机有Siri，谷歌公司的Android手机有Google Now，微软公司的windows手机有corana等。

智能语音控制成为进入移动互联网的钥匙，人机语音交互越来越频繁。

老年人视力下降、动作不灵活，低龄儿童一时还不具备手写能力，失明人士无法通过视觉识别事物…

他们都可以通过语音交互给生活带来方便。

以谷歌的实力，语音识别秘密部门聘请的人，自然都是优中选优的高手。

很快，威尔就得到反编译的源代码。

多更一章，谢谢书友

“虚无湮灭”

“冷漠玫瑰plus”

“端木黯然”

书友

众位大大的推荐票！

感谢“虚无湮灭”大大的评论！

投推荐票上一章章节目录下一章加入书签返回书架

第78章 锥处囊中

第78章锥处囊中