亲,欢迎光临88小说网!
错缺断章、加书:站内短信
后台有人,会尽快回复!
88小说网 > 都市言情 > 重生之AI教父 > 第206章 从文本到语音
  • 主题模式:

  • 字体大小:

    -

    18

    +
  • 恢复默认

孟繁岐基本了解此次事件的大概脉络,但在细节上面,他知道的内容却不多。

卡雷鲁手中握有近百亲历者的采访记录,里面含有大量细节,为孟繁岐带来了许多亲历者的惨痛遭遇。

孟繁岐这才明白过来,自己一直以来将霍尔姆斯单纯定义为骗子其实是有些狭隘的想法。

她间接造成的伤害,远远超过孟繁岐直觉上的感受。

“也有道理,正常人大部分是不会想到去做全套指标检测的。想做这些血液检测的人当中,有不少都是怀疑身体哪里是不是出了问题的,检测的结果对于他们意义重大。”

使用了爱迪生仪器的这批人,其中患者比例要远高于一般水准。

并且,不管是健康的人误检测出病症,害得别人吃药;还是有疾病的人未检测出问题,害得别人错过最佳的治疗期,都不是小事

这种虚假造成的危害都是难以估量的。

好在由于孟繁岐的缘故,霍尔姆斯的骗局早早败露,的确是功德无量的一件事情。

“我总是一直躲着也不是办法,这次赌约关注的人很多,还是简洁地收个尾吧,省得他们一直缠着我。”

送走卡雷鲁后的几天,虽然孟繁岐一直谢绝记者们的联系和采访,可这批人似乎没有任何放过他的意思。

不胜其扰,孟繁岐便联系了此前与谷歌关系甚密的美联社记者马修,通过他简要地表了一个态。

基本上流程分三步走。

首先是悲痛惋惜的态度,难以置信之中夹杂着一点愤怒和遗憾。

简直是化身成为了羽泉组合中,发现陈羽凡吸毒的胡海泉。

接连的质问,十万个为什么,一副痛彻心扉的样子。把自己先摘了出去,仿佛自己一点儿也不知情。

“为什么!?为什么是你!?为什么你要做这样错到极致的事情!?”

...

随后,则是对赌约的低调淡化处理。赌约本就是为了让人们关注霍尔姆斯机器应用的进展,顺带给自己打了个广告。现在目的已经达到,孟繁岐的态度十分宽容大度,并不执着于此事。

“当时的赌约,本来就是为了督促我们双方对医学领域做出更多的贡献,大家不必太过执着此事。”

...

最后,则化身成为六小龄童。

“今年下半年,由我与斯坦福、伯克利合作的智能医疗检测仪器即将开机。我将继续提供其中的人工智能图像算法部分,希望大家能多多关注。”

做了一系列医疗图像的应用工作,骗局的泡沫也被戳破,孟繁岐短时间内准备暂时搁置医疗领域这方面的新技术研发。

目前这点东西一年内够用了,医学方面的图像和其他审批比较慢,这件事可以明年再继续推动。

现在摆在他面前的诸多技术路线中有两项最为关键,一是通往chatGpt的语言大模型技术道路,孟繁岐计划在一年之内完成最终chatGpt百分之二大小的迷你Gpt。

另一条则是为了加强与特斯拉和英伟达的关系,为了大批硬件设备而承诺的自动驾驶道路,孟繁岐需要在一两年内推动高质量的辅助驾驶功能。

就目前来看,后者还需要等待新一批的泰坦显卡到货、安装、然后部署测试成功。阿尔法围棋的人机大战之前,恐怕难以开展了。

“这么算来,我最近一两个月内,还是多推进一些Gpt路线的相关技术,正好伊利亚最近也在做序列到序列的技术。”

说起诸多技术路线,孟繁岐也感到非常烦躁。

刚重生回来的时候,他已经把自己比较熟知,不依赖数据和硬件的知名技术薅了一大圈了,发了接近十篇优质论文。

“剩下的技术里面,现在对我比较关键的,不是像阿尔法fold那样需要大量蛋白质数据,就是像chatGpt那样需要海量未来硬件和先进分布框架的。”

“每次刚开始,推进还没多少,就会遭遇瓶颈,不得不先去做别的事情,真是烦啊,这些东西都需要时间。”

既然要做序列到序列的语言任务,那还是得回谷歌大脑,以伊利亚为首的一票人研究这方面已经有一段时间了。

孟繁岐偷偷溜达回了谷歌大脑的办公室,发现伊利亚等人的确正在处理序列到序列类型的任务,其实主要还是上次孟繁岐本该接下的翻译任务。

“哈哈哈,这个任务最后还是到了你手里啊。”

孟繁岐记得伊利亚对这个任务不是特别感冒,没想到最后还是他来负责。

“我其实也并不是不想做翻译类的任务,序列到序列类型我是很感兴趣的,我只是单纯不喜欢那种其他部门有什么需求,我们就必须得做的工作模式罢了。”

伊利亚头都没抬起来,光从语气中就猜了出来孟繁岐到底是什么意思。

“我觉得真正想要做出好的研究,还是很需要兴趣的。”

“怎么样,有什么我能帮上忙的吗?”

翻译任务属于语言任务的一种,是chatGpt功能的一部分,孟繁岐也算是比较了解。

“这边我们已经做得差不多了,你如果想帮忙的话,倒是可以处理一下文字到语音的问题。”

现在的许多翻译页面,都会同时提供一个文本发音的功能,只是现在这个阶段还比较粗糙。

这是很合理的需求,用户使用翻译很多时候不仅仅是为了理解意思,想要学习读音也是非常正常的现象。

而从文字到语音的转换过程,被称为ttS(text-to-speech)技术。译为文本转语音,是一种能把文字内容转换为语音输出的技术。

chatGpt则是文本到文本技术,内容的性质没有发生改变。

这样对比起来,乍一看似乎文本转语音要复杂一点,因为输入和输出的种类都不同了。

chatGpt是根据文本回应文本,ttS则需要根据输入文本去输出波形从而表达声音。

但事实上难度的是完全反过来的,并且ttS技术要容易不少,因为它并不需要理解文本本身的含义,chatGpt则需要理解文本本身的意义,并进行合理的回应。

“文本首先需要一套语言学标注系统,将文本分词,然后标注音素音节和单词级别的信息,用以最后去合成语音。”

孟繁岐大概确认了一下现在常用的传统办法的水平:“目前的语音主要是基于语音库,这个库里存放了大量的文本和它的对应音频。这就像是素材库,根据需求把素材拿出来拼在一起。”

“最简单的办法,就是拼接合成。用标注系统跑一下输入的文本,得到了一大串语言学的标注。得到标注之后,直接从语音库里找对应的音频拼起来就好了。”

“现在步入了深度学习时代,完全可以用新做法了。比如,我可以直接用深度网络学习文本到声学特征的对应关系,这样就不再需要去标注文本了,不过最后还是需要声码器。”

语言相关的任务,万物皆可序列到序列,输入是一个序列,输出也是一个序列,其中的许多原理都是相通的。

只是做这件事情不能够再用传统的循环网络和长短期记忆办法了,那样有点跟不上节奏。

孟繁岐要将上次搜索引擎中已经加入的雏形transformer方法彻底实现完成,并发布出去。

Gpt的t方法是时候作为论文正式出现了!