重磅百度研究院副院长余凯大数据与人

2020-11-14 来源:不详 浏览次数:

治疗白癜风哪个医院好 https://m-mip.39.net/nk/mipso_6983144.html

紧接上次,精彩继续

百度大脑目前最成功、最重要的四个利用的领域:

第一,搜索。我们用深度学习作用在自然语音、文本、网络的语意上面,去衡量他们语意的相关性。

第二,广告。因为广告是要智能的匹配,因为如果这个广告不被用户点击,我们挣不到钱。

第三,图象。包括今天李彦宏讲到了自动驾驶,自动驾驶里面图像技术是非常重要的。

第四,语音识别和理解。最近这几年业界取得的进展,包括百度做的工作。语音识别在三十年的时间里面是一个进展非常缓慢的领域。但是最近三四年时间里有一个突飞猛进的进展,原因的核心就是基于大数据的深度学习技术。

这些应用领域在业务结构里面扮演什么样的角色?它怎么把这些事情串起来为公司的核心业务产生影响。

第一,理解意图。比如说我们的用户来到百度这个平台,传统上来讲,他用关键词表达他的搜索需求,但是我们看到最近这两年有一个趋势:第一,用户需求表达越来越复杂,以前很多是搜索信息,现在很多是服务的需求,这里面有很多复杂的语意来描述需求。

第二,更多自然的方式表达你的需求。比如说自然的语音、句子去问问题,比如说在移动终端上面用语音表达。现在有的APP就是拍个照,小朋友帮助你做题。这种自然的表达方式是第二个趋势。你用深度学习理解自然语言、语音识别、理解图象变成是理解用户的意图。

第三,你在理解了意图以后,你需要连接用户跟他需要的信息。你在信息、文章那一端需要有更好的理解,这个理解需要有更好的匹配。匹配用户的需求,就是优化搜索结果的智能排序。

第四,精准推送广告和服务。深度学习在每一个领域都发挥着重要的作用

为什么深度学习在今天受到重视?

第一点,我觉得是一个很浪漫主义的原因,因为我们总是在想我们的机器能不能复制人的智能,复制生物的智能。所以有一个观点是,深度学习可能跟人脑的机理是有关系的。确实也是,最早期的去启发做深度学习的研究,确实是受到人脑的启发。

第二点,特别适合大数据。其实到今天,深度学习为什么重要的第一个原因是最不重要的,因为你去研究鸟类怎么飞行,跟我要造一个飞机是不一样的事情。但对于我们来讲,尤其对我们工业界来讲,我们希望能够造出智能的机器,他不是去再现人的智能,而是要利用大数据去延伸或者互补人的能力。

第三,端到端的学习。过去做模式识别或者机器学习通常会分为两步,第一,根据你对问题的理解,人工的、人为的去做一些数据的预处理,这里面对人的要求是很高的,你需要非常精准的对问题进行理解。但是你一旦换一个问题,你需要重新去理解。深度学习把学习跟判定是连在一起的,前面不是人工的,它也是学习,但是一个一气呵成的从端到端的学习,这个非常重要。因为它让你这个学习更加智能,它可以让你从一个领域迁移到另外一个领域,它可以减少人工带来的不必要的麻烦。

第四,提供一套建模语音。深度学习,你不需要对问题有很好的理解,这是一个错误的观点。因为深度学习跟我们在机器学习里面的图模型一样,也是一套语言系统,他让你表达你对这个问题的理解,如果你对这个问题不理解,深度学习对你来讲没有用。在不同的问题里面,我们需要开发不同的深度学习的模型。

回到第一个浪漫主义的观点,深度学习跟人脑的关系。计算机视觉里面一个很著名的深度学习的模型是卷积神经网络。他们做这个的时候受到一个模型的启发,这个模型80年代获得诺贝尔医学生理学奖。他讲的是视觉神经系统早期在视觉皮层里面怎么样处理视觉信息。

用很多的图像数据训练卷积神经网络,这个网络能够非常接近的体现视觉神经系统的行为。每一层的神经元是一个特征提取器,一个具体的神经元对什么特征敏感,这里面讲的是他对不同朝向的边界敏感。更高一层,把下面这一层提取的结果,去组成更复杂的模式匹配。如果是两条边你结合在一起会形成一个物体的各个部位,比如说鼻子的提取,再往下走,就更具有语意,他可以把下面的东西组成更加丰富的物体结构。这里面他是一个从信号逐层抽象、逐层变换的过程。跟我们今天所了解的生物视觉系统是非常相关的。但基本上我们只是知道这个联系,今天为止,我们做的很多的工作跟这个联系并没有太多的关系,也未受这个联系的束缚。

从另外一个观点来讲,从统计和计算方面来分享。在机器学习里面,我们关心的是推广误差,他不是看在现有数据集上面效果怎么样,而是在未知的数据上,这个系统在训练的时候没有看到的地方,叫推广误差。去年夏天,因为我们家小孩是在美国长大,刚刚回来,刚刚从一年级开始学习,中文不太好,他有一次考完试以后跟我讲,考的不好,70几分;第二天他特别高兴的跟我讲,爸爸,我考了98分,我说这太好了,一天之内进步这么快。他说因为今天的考题跟昨天是一样的。这不能真实反应学习者的能力。推广误差要在你没有见过的数据集上面衡量他的效果怎么样。

一个经典的分析方法是把推广误差分析成两部分,我们来看错误源在什么地方。第一个叫Approximationerror,也就是假设,没有假设就没有学习,你在学习做推广的时候就一定有假设,你从已知推向未知,中间一定有一个结构在里面。古代我们讲近朱者赤,近墨者黑,这有一个相似性-如果是相似的物体具有相似的属性。这里面隐含着函数平滑假设,我们做一个假设,通常反映在你的模型中间,所有的假设可能是错的。在统计学里面有一个,假设不完美,你在假设空间里面一定能够找到最完美的那个。

第二个推广来源是Estimationerror,这是来源于数据的不完美。你的训练数据和测试的数据来源分布不一样。更多的时候是说你的数据是有限样本,如果你在有限样本上面得到的估计量是不准确的。因为我们的估计量是在无限样本里面去估计他。

光分析这两个东西是不够的。通常来讲,在统计学的范畴里去分析这两个东西,统计学家关心的点,跟计算机科学不太一样。计算机科学关心的是,我今天跟老板申请五百台机器,老板说不行就五台。你说老板,给我五个机器,我要算两个月搞定,老板说,你今天不搞定不能回家。所以是有限的资源下面去分析这个问题,在资源的有限性上面,你要去分析这个问题。这里面一般是求解的不完美,考虑计算的不完美。

这里面给我们最近的机器学习提供了最近的误差,我一开始在机器学习上面右层的集成,最好的一层是20层。第二,大量的数据,让你在这上面经验性的判断接近你的期望值。第三,我要设计一个非常精巧的算法,求得一个非常完美的解,这个完美的解算法非常复杂。一个能用的算法,它得有比较好的性质,让你可以消化大的数据。把这三点都放在一起,大家可以理解,为什么在大数据的时代深度学习变得这么重要。

我们看这两个纬度,随着数据规模的增长,效果是怎么样的。传统的人工智能算法可能由于这个模型的空间是有限的,复杂度不够高,数据多了没有用。或者你的算法本身不能处理大数据,比如说他的算法复杂度是数据量的三次方。一万个数据点你可以看懂,但是如果是十万个你就搞不定。

但是深度学习算法,由于它的模型足够的好,又能够掌握主大数据,所以他能够不断吸收数据红利,去年百度首席科学家AndrewNg带领团队在语音识别问题上取得了重大进展,把数据加到了几万小时,效果不断的加强。如果你的商业模式能够拥有这样一个曲线,我要恭喜你,因为大数据真正成为商业壁垒。。

第二,深度学习是一个灵活的建模语音。我们用不同的语音模型表达你的点,比如说图象,因为他是两维的,用卷积神经网络更加适合。我们去搜索语意相关性,传统的做法是人工抽取很多特征,变成一个学习问题,这里面完全是端到端的。我关心的是对于一个搜索的Query,我关心的是这两个相关性,但是它绝对的相关程度我不关心。深度神经网络给你的是一个语言,让你去表达你对问题的理解。

这是最近非常成功的一个神经网络结构。它叫Long—shorttermmemory,它最近取得很好的进展:即在任何一个地方,时间跟历史的相关性是变化的。

比如说自然语言处理,你如果碰到一个右符号,你只要溯源到左符号那个地方,把中间所有的东西拿出来分析。根据你当前所处的状态,你是应该去找一个更长的。你遇到一个句号,你做语意理解的时候,你把过去历史所有的都要清零。在时间面前,时间和历史是不一样的。这个模型比以前的模型更加的rich。

我们在过去做字符识别的时候,一般先把字符分成一个一个单的图片,再识别它是什么东西,但是我们发现对于这样的问题是不可行的。在这种情况下,你可以做的是把整个字符序列放进去,并希望输出的是一个完整的字符序列。现在在这些领域应用都是最好的效果。

用另外一个更加不同的神经网络表达我的问题。我不是识别这个图象里面有什么东西,而是述说图片的故事:下午的阳光照在房间,有蓝色的地毯和白色的沙发…今天我们用理解图象的神经网络,经过很多非线性的变换,生成很多表达。他从这个词生成一个图象,再生成下一个词,我希望这个句子跟图象是有关的,使整个的语言也跟这个图象有关。根据你对这个问题的理解,神经网络深度学习给你提供了一个非常丰富的符号语言系统让你去表达你这个问题应该怎么搜索。

还有很多其他的例子,用深度学习提高搜索的先进性,用了深度学习以后,比没有用深度学习有翻倍的提升,包括语音的系统。最近我们用的语音系统,是一个真正的中文语音识别系统,我们用几万小时的声音来训练它,在识别率上面有很大提升。大家看新闻可能看到了,我们在英文的识别也是优于我们的竞争对手。

这是另外一个很有意思的例子,很小的一个产品,但是它是人工智能很多技术在一起的综合体系。这个是我的一个朋友,纽约大学的教授研发的,他到上海来,去餐馆看到这样一个菜单,他拍照识别,有一个OCR,翻译成英文,通过TTS就可以翻译出来。在纽约你想找川菜馆,他识别成中文,翻译成英文,通过这个英文随便给一个老外你问他。这个东西正在成为现实,中间的时延做的越来越好。

这是百度作业帮,小朋友夏天玩的没有时间做作业了,但快要开学了怎么办?如果我小时候有这个玩意儿,我会很开心,因为我有更多的时间玩。当然这个技术要善加利用,你可以去找到关键的识别点。

这一度让很多朋友玩的很high,每个小人物都有一个成明星的梦想,我们就能满足这样的需求。我访问谷歌的时候,有个是做深度学习最有名的多伦多大学的教授,现在在谷歌工作。当时他问我,深度学习还能活五年吗?我说不能,他听了很沉闷。但是其中的思想是有价值的,比如说分层次的思想,在非神经网络的系统和其他的系统都有作用。我们用深度学习做了这么好玩的东西,我们可以玩一玩,他说好,来玩玩。他得到了这个结果非常开心,立刻分享给他的老婆。

最近我们团队有一个挺好的结果,去年Facebook在测试上面,得到世界上最好的结果97.35%,前几天百度深度学习研究院得到了99.85%的成绩,终结了刷榜。常常我们会听说到某一个团队在一个数据上面做到怎么样的效果,怎么必须要客观的看,那只是证明他在这个数据集上做的最好,不代表他把这个问题给解决了,也不代表他的这个问题就可用了。人脸识别,今天谁要告诉你,说人脸识别可以用来代替指纹识别,我告诉你,那肯定是忽悠,没有到那个程度,但是终究有一天会做到的。

基于图象的理解,你可以做图片搜索,他不光做视觉相似形的匹配,还有语意的匹配。这里的结果看起来都不错,有一些细致的区别。这边下面是倒影,是水,这边看似是水,但是大部分是草坪、陆地,这边的结果全都是倒影、都是水。很细致的不同。

去年全球最好的物体检测模型,他告诉你有这个头盔,他也告诉你这个头盔在什么地方,用一个框给框出来。基于大数据的人工智能在过去几年已经发生了变化,我们静态来看、把这几年的进展串在一起看,效果还是很惊人的。在这个分类中,年世界最好结果,错误率接近30%。每一年不同的团队在这上面努力工作,每一年的错误率非常惊人的在降低,朝着零趋势发展。年最好的结果是百度取得的--7%。斯坦福的学者人工做了一下比对,他们发现人的识别率是5%,今年我们听到微软和谷歌的朋友已经做到大概3%、4%了。当然也有一些误导,比如说他能认识六七种不同的青蛙,谁能认识那么多种不同的青蛙呢?人的能力还是有限的。

过去的搜索引擎包括几个环节,数据信息的感知、处理、理解、学习,到决策、行动、创造,这是三个不同阶段。过去我们主要是从互联网上获取这些信息,今天因为是移动互联网,我们的服务离人越来越近,所以你需要更多从人的数据里面获取很多内容。我们跟清华大学的朱勇武(音)老师有的项目,从人,还有物理世界,物联网(手机上面有各种各样的传感器,里面有一种重要的传感器是GPS,对物理世界的感知),这些纬度都变得越来越重要。相反,互联网上的数据以前是唯一,现在只是其中的一个信息来源。把这些信息都获取,我们也需要去向更加先进的人机交互的领域发展。比如说更加先进的传感器,我们现在在做3D建模,它是自动驾驶很重要的一个方面。因为车在什么地方可以走,什么地方不能走,哪个地方是主道,哪个地方是辅道…要不然这个车不知道怎么走。

以前传统的互联网的信息分析以后,我们通常去做预测、广告、搜索.但是今天,我们不光是在数字世界里面去做一些事情,我们是不是也在物理世界做一些事情。有一位专家说的很好,清华大学张院士说,机器人是互联网服务的最后一公里。比如说今天你在网上预定一个比萨,那边有人读到了这个信息,他来给你做这个比萨;某个人辛辛苦苦把这个比萨送过来…这里面有很多环节可以去优化。比如说这个比萨是不是真的做的非常的个性化,是不是非常符合你的口味?比如说今天我们在移动互联网上对每个用户的画像,可以做几十万个来描述你的兴趣。将来的这个比萨会做的非常的个性化。加多少胡椒粉都是针对你的口味,可以做到千人千面,可以让每个人都感觉是VIP。到底谁能做这件事情?机器人。因为他把这些数据瞬间读到他的数据库里面。谁来最高效的把这个服务最后完成,送到你家里来?机器人。张华院士说机器人是互联网服务的最后一公里,很有道理,很深刻。

当然人工智能还有一个很高的层次就是探索和发现。去探索过去没有的东西,3D打印在这里面扮演一个东西,他把一个计算的结果变成一个物理的现实。计算是没有边界的,计算生成的结果基本上也是没有任何的边界,所以他可以生成任何的东西,3D打印就可以帮助他实现。将来的智能延伸到物理世界里面去创造以前从来没有过的东西,这是一个可以预见的未来。今天对网络模型的规模有不断的追求,我经常可以听到某某单位可以实现超大规模的神经网络,这里面可以稍微做一些类比,我们可以看到不同物种的变化是很大的。但是如果你看他们的变化之间平均的连接,他们的区别其实没有那么大。我们发现更高层次的智慧物种,他有更大规模的神经网络,但是他的网络连接是稀疏的。你的物种不断增多,你的连接却没有变化,所以他一定是越来越稀疏的。这对我们是有一些启发的。

今天我们来比较一下人类大脑跟Super

转载请注明:
http://www.syzizu.com/sjbbyf/18977.html
  • 上一篇文章:

  • 下一篇文章: 没有了
  • 网站首页 版权信息 发布优势 合作伙伴 隐私保护 服务条款 网站地图 网站简介

    温馨提示:本站信息不能作为诊断和医疗依据
    版权所有 2014-2024
    今天是: