重生之AI教父 - 第206章从文本到语音

孟繁岐基本了解此次事件的大概脉络，但在细节上面，他知道的内容却不多。

卡雷鲁手中握有近百亲历者的采访记录，里面含有大量细节，为孟繁岐带来了许多亲历者的惨痛遭遇。

孟繁岐这才明白过来，自己一直以来将霍尔姆斯单纯定义为骗子其实是有些狭隘的想法。

她间接造成的伤害，远远超过孟繁岐直觉上的感受。

“也有道理，正常人大部分是不会想到去做全套指标检测的。想做这些血液检测的人当中，有不少都是怀疑身体哪里是不是出了问题的，检测的结果对于他们意义重大。”

使用了爱迪生仪器的这批人，其中患者比例要远高于一般水准。

并且，不管是健康的人误检测出病症，害得别人吃药；还是有疾病的人未检测出问题，害得别人错过最佳的治疗期，都不是小事

这种虚假造成的危害都是难以估量的。

好在由于孟繁岐的缘故，霍尔姆斯的骗局早早败露，的确是功德无量的一件事情。

“我总是一直躲着也不是办法，这次赌约关注的人很多，还是简洁地收个尾吧，省得他们一直缠着我。”

送走卡雷鲁后的几天，虽然孟繁岐一直谢绝记者们的联系和采访，可这批人似乎没有任何放过他的意思。

不胜其扰，孟繁岐便联系了此前与谷歌关系甚密的美联社记者马修，通过他简要地表了一个态。

基本上流程分三步走。

首先是悲痛惋惜的态度，难以置信之中夹杂着一点愤怒和遗憾。

简直是化身成为了羽泉组合中，发现陈羽凡吸毒的胡海泉。

接连的质问，十万个为什么，一副痛彻心扉的样子。把自己先摘了出去，仿佛自己一点儿也不知情。

“为什么！？为什么是你！？为什么你要做这样错到极致的事情！？”

...

随后，则是对赌约的低调淡化处理。赌约本就是为了让人们关注霍尔姆斯机器应用的进展，顺带给自己打了个广告。现在目的已经达到，孟繁岐的态度十分宽容大度，并不执着于此事。

“当时的赌约，本来就是为了督促我们双方对医学领域做出更多的贡献，大家不必太过执着此事。”

...

最后，则化身成为六小龄童。

“今年下半年，由我与斯坦福、伯克利合作的智能医疗检测仪器即将开机。我将继续提供其中的人工智能图像算法部分，希望大家能多多关注。”

做了一系列医疗图像的应用工作，骗局的泡沫也被戳破，孟繁岐短时间内准备暂时搁置医疗领域这方面的新技术研发。

目前这点东西一年内够用了，医学方面的图像和其他审批比较慢，这件事可以明年再继续推动。

现在摆在他面前的诸多技术路线中有两项最为关键，一是通往chatGpt的语言大模型技术道路，孟繁岐计划在一年之内完成最终chatGpt百分之二大小的迷你Gpt。

另一条则是为了加强与特斯拉和英伟达的关系，为了大批硬件设备而承诺的自动驾驶道路，孟繁岐需要在一两年内推动高质量的辅助驾驶功能。

就目前来看，后者还需要等待新一批的泰坦显卡到货、安装、然后部署测试成功。阿尔法围棋的人机大战之前，恐怕难以开展了。

“这么算来，我最近一两个月内，还是多推进一些Gpt路线的相关技术，正好伊利亚最近也在做序列到序列的技术。”

说起诸多技术路线，孟繁岐也感到非常烦躁。

刚重生回来的时候，他已经把自己比较熟知，不依赖数据和硬件的知名技术薅了一大圈了，发了接近十篇优质论文。

“剩下的技术里面，现在对我比较关键的，不是像阿尔法fold那样需要大量蛋白质数据，就是像chatGpt那样需要海量未来硬件和先进分布框架的。”

“每次刚开始，推进还没多少，就会遭遇瓶颈，不得不先去做别的事情，真是烦啊，这些东西都需要时间。”

既然要做序列到序列的语言任务，那还是得回谷歌大脑，以伊利亚为首的一票人研究这方面已经有一段时间了。

孟繁岐偷偷溜达回了谷歌大脑的办公室，发现伊利亚等人的确正在处理序列到序列类型的任务，其实主要还是上次孟繁岐本该接下的翻译任务。

“哈哈哈，这个任务最后还是到了你手里啊。”

孟繁岐记得伊利亚对这个任务不是特别感冒，没想到最后还是他来负责。

“我其实也并不是不想做翻译类的任务，序列到序列类型我是很感兴趣的，我只是单纯不喜欢那种其他部门有什么需求，我们就必须得做的工作模式罢了。”

伊利亚头都没抬起来，光从语气中就猜了出来孟繁岐到底是什么意思。

“我觉得真正想要做出好的研究，还是很需要兴趣的。”

“怎么样，有什么我能帮上忙的吗？”

翻译任务属于语言任务的一种，是chatGpt功能的一部分，孟繁岐也算是比较了解。

“这边我们已经做得差不多了，你如果想帮忙的话，倒是可以处理一下文字到语音的问题。”

现在的许多翻译页面，都会同时提供一个文本发音的功能，只是现在这个阶段还比较粗糙。

这是很合理的需求，用户使用翻译很多时候不仅仅是为了理解意思，想要学习读音也是非常正常的现象。

而从文字到语音的转换过程，被称为ttS(text-to-speech)技术。译为文本转语音，是一种能把文字内容转换为语音输出的技术。

chatGpt则是文本到文本技术，内容的性质没有发生改变。

这样对比起来，乍一看似乎文本转语音要复杂一点，因为输入和输出的种类都不同了。

chatGpt是根据文本回应文本，ttS则需要根据输入文本去输出波形从而表达声音。

但事实上难度的是完全反过来的，并且ttS技术要容易不少，因为它并不需要理解文本本身的含义，chatGpt则需要理解文本本身的意义，并进行合理的回应。

“文本首先需要一套语言学标注系统，将文本分词，然后标注音素音节和单词级别的信息，用以最后去合成语音。”

孟繁岐大概确认了一下现在常用的传统办法的水平：“目前的语音主要是基于语音库，这个库里存放了大量的文本和它的对应音频。这就像是素材库，根据需求把素材拿出来拼在一起。”

“最简单的办法，就是拼接合成。用标注系统跑一下输入的文本，得到了一大串语言学的标注。得到标注之后，直接从语音库里找对应的音频拼起来就好了。”

“现在步入了深度学习时代，完全可以用新做法了。比如，我可以直接用深度网络学习文本到声学特征的对应关系，这样就不再需要去标注文本了，不过最后还是需要声码器。”

语言相关的任务，万物皆可序列到序列，输入是一个序列，输出也是一个序列，其中的许多原理都是相通的。

只是做这件事情不能够再用传统的循环网络和长短期记忆办法了，那样有点跟不上节奏。

孟繁岐要将上次搜索引擎中已经加入的雏形transformer方法彻底实现完成，并发布出去。

Gpt的t方法是时候作为论文正式出现了！

投推荐票上一章章节目录下一章加入书签返回书架

第206章 从文本到语音

第206章从文本到语音