纽约时报了不起的AI觉醒下
2020-11-10 来源:不详 浏览次数:次北京一次治疗白癜风花多少钱 http://baidianfeng.39.net/a_yufang/170226/5232270.html
人工智能学家
第二部分:语言机器
5、语言的十字路口
Brain部门现在约有位成员,他们感觉自己不像是在一个层次分明的大公司的部门里,而像是在俱乐部、学术社区或者小酒吧。这些年来,Brain被视为谷歌最自由的、员工最受推崇的部门。该部门地处公司园区西北边缘的一个两层的蛋壳结构的炭灰色建筑中。他们的小厨房中有从未使用过的桌上足球机和摇滚乐队设施,以及偶尔使用的Go工具箱。(但我曾经看到一位年轻的助理向他的同事介绍如何像瓜分火鸡一样瓜分菠萝蜜。)
6月份,我在Brain的办公室看到了一些空着的桌子,但大多数都贴上了便利贴,写着诸如“Jesse,6/27”等,但现在所有位置都满了。我第一次去Brain的时候,停车根本不是问题。虽然最近的停车位预留给了孕妇或者特斯拉汽车,但仍有足够的停车位剩下。但到10月份,如果我晚于9:30上班,就不得不去马路对面找停车位了。
Brain的快速发展让Dean有点担心公司是否可以满足这些需求。他想避免“成功灾难”,即公司的理论能力超过了实际执行任务的能力。有一天,他做了些简单计算,并用两页PPT向高管们展示了自己的想法。
“如果将来每个人每天对自己手机说三分钟话,那我们得需要多少机器啊!”他说,他们需要将其全球计算空间翻倍或三倍。Dean表情夸张地说:“那个,听起来很可怕,但我们不得不这么做。”然后思考了一会儿,补充道:“我们需要建立新的架构。”
但是,还有另一个选择:设计并批量生产一种新型芯片,将它们安装在分布式的数据中心,从而加快运算速度。这种新型芯片就是T.P.U.(TensorProcessingUnits),而且,它们反而比普通的芯片精度低。他们给出的不是12.乘54.,而是近似12乘54。从数学角度上来说,神经网络就是成百上千上亿的结构化矩阵连续相乘,所以速度比精度更重要。Dean说:“一般情况下,专用硬件不是个好主意,因为它仅能用于单一任务的加速。但由于神经网络的通用性,你可以用专用硬件来加速很多任务。”
就在芯片设计阶段即将完成时,Le和他的两个同事终于证明了神经网络可以解决语言结构问题。Le提出了“词嵌入(wordembeddings)”的想法,围绕这一想法,他研究了10年以上。当你“总结”图片时,你知道每个阶段总结的信息,如边缘、圆圈等。当以类似方式“总结”语言时,实际上,你是基于常用语法,在单词间建立多维距离映射图。我们“分析”数据时,会利用语言规则将词分为名词、动词等,但机器不是这样的。实际上,机器会将单词平移、旋转、变换后放入多维距离地图。
二维关系中,距离地图可能没什么用。比如,你既想“猫”放在“狗”附近,又想把“猫”放在“尾巴”、“高傲”和“喵喵”等附近,因为你想搜集“猫”和所有与它有关的单词之间的关系。而只有这些词在不同维度上与“猫”相关,我们才能同时将它们关联在一起。你可能无法轻易构建维距离地图,但0维左右就可以很好地表示一种语言了。换句话说,语言中每个单词都可以由一千个数字排列表示。我实在很难想象出这么多维的距离地图。Le说,“我一般不太喜欢在三维空中,可视化出一千维向量。”
而且,空间中的特定维度信息可以表示人类的类别,比如性别或身材。如果你把代表“国王”的千位数字值减去代表“皇后”的千位数字值,其结果应该和表示“女性”的数值减去表示“男性”的数值一样。如果你掌握了整个英语空间和整个法语空间,理论上,你可以训练一个神经网络,其输入的是一个空间的语句,输出的是另一个空间中对应的语句。具体做法上,只需要给它提供数百万句的英语作为输入,把对应的的法语语句作为输出,这样随着一段时间的学习,神经网络将找到单词间特定的模式,就如同图像分类器找到像素间的模式一样。最后,你可以输入一句英语,要求该神经网络预测出最匹配的法语。
然而,像素和单词之间最大的区别在于,图像中所有像素是一起出现的,而单词是按说话的时间顺序出现的。这就需要网络以某种方式按时间顺序“记住”所有单词,从第一个到最后一个。年9月份,大约一个星期内,就出现了三篇论文(Le和两个来自加拿大和德国的学者发表的),都为这一问题提供了必要的理论工具。该研究为开放式项目(如Brain的Magenta)说明了机器如何打造艺术和音乐;它也为工具式应用(如机器翻译)指明了方向。Hinton告诉我,那时他认为这项研究的后续工作可能至少还需要持续五年的时间。
6、伏击
Le的论文表明,神经转换是合理的,但他只使用了一个相对较小的公共数据集。(对谷歌而言,这数据集是很小的,而谷歌是这个世界上最大的公共数据集。旧版的Translate在过去十年已经收集了生产倍到0倍的生产数据。)更重要的是,Le的模型不能很好地翻译超过约七字的句子。
当时Brain的研究科学家MikeSchuster当上了项目总负责人。他知道,就算谷歌没有找到一种方法把这些理论提高到生产力水平,总有一些人会找到。这个项目占用了他接下来的两年。“你想,”Schuster说:“为了翻译,你只得到了一堆数据,运行一些实验,当你完成了,却发现它没有达到预期的效果。”
Schuster是一个紧张又注意力集中、充满活力的人,他的头部黝黑像活塞,窄肩,穿着长迷彩短裤和霓虹绿耐克鞋。他看起来就像从莲花座姿势中醒来一样,伸手去找他的椭圆无框小眼镜,就像保存完好的橡果温和的部分那样去吸收卡路里,去办公室的路上就像完成了一次沙漠十项全能。在现实中,他告诉我,这只是在另一条路上骑行18英里而已。Schuster在前西德的高炉区杜伊斯堡成长并学习电子工程,后来移居东京开展早期神经网络的研究工作。在上世纪90年代,他用会议室一样大神经网络机器进行实验;这台机器花费了上百万美元,并且训练了数周去做一些你现在可以用笔记本电脑轻松完成的事情。他在年发表了一篇论文,几乎被引用了15年之久;今年这篇论文已经被引用了大约次。他不缺乏幽默感,但他经常用一些粗鲁的词语,我把这看作是他对结合德国严谨和日本细致的特点。
Schuster不得不面对的问题是纠结的。一方面,Le的代码自己编写的,并不兼容谷歌当时新开发的机器学习开源平台TensorFlow。Dean在年的秋天给Schuster派遣了两个工程师,YonghuiWu和ZhifengChen。他们花了两个月的时间才在新系统上复制Le的结果。Le当时就在旁边,但即使是他也无法总是明白他们所做的事情。
正如Schuster所说,“有些东西是不能完全被意识到的。他们也不知道真正的原理。”
今年二月,谷歌的研究机构—这是一个有一千名致力于前瞻性研究的松散组织的公司—在联合广场威斯汀圣弗朗西斯会场召集了他们的领导。那是一个略低档于谷歌自家酒店的往东一英里左右的豪华酒店。整个早上就是被他们的“闪电讲坛”预定了,主要是快速介绍一遍目前研究的前沿。而下午则为跨部门的“合作讨论”预留着。这个会议期望能为了保持公司的产出而提供的一次不可预知、透明、贝尔实验室似的交流。
在午餐时间,Corrado和Dean联合起来找到谷歌翻译的负责人MacduffHughes。Hughes正独自一人吃饭,而两位Brain的成员则坐在了他的两边.。正如Corrado所说,“我们伏击了他。”
“好吧,”Corrado对警惕的Hughes说,“我们有话要告诉你。”
他们告诉休斯,是考虑谷歌翻译用神经网络改革的一个好时机.—数百名工程师累积超过了10年的代码。旧版系统的工作原理和其他机器翻译的原理一样,超过了30年历史:它首先将连续句子断开,在一个经过统计学整理的词典中查找词义,然后经过一系列的后处理规则,附加上正确的结尾词并重排词语使句子有意义。该方法被称为“基于短语的统计机器翻译,”因为当系统进入下一个词语后,它便忘记上一个词语的意思是什么了.。这就是为什么机器翻译的输出句子有时候读起来不通畅。如果能成功更换为神经网络的翻译,它将把阅读和造句放在一个整体的流程里。它将