深度学习的昨天,今天和明天

机器学习是人工智能领域的一个重要学科.自从20世纪80年代以来机器学习在算法理论和应用等方面都获得巨大成功.2006年以来机器学习领域中一个叫深度学习的课题开始受到学术界广泛关注到今天已经成为互联网大数据和人工智能的一个热潮.深度学习通过建立类似于人脑的分层模型结构对输入数据逐级提取从底层到高层的特征从而能很好地建立从底层信号到高层语义的映射关系.近年来谷歌微软IBM百度等拥有大数据的高科技公司相继投入大量资源进行深度学习技术研发,在语音图像自然语言在线广告等领域取得显著进展.从对实际应用的贡献来说深度学习可能是机器学习领域最近这十年来最成功的研究方向。

2012年6月,纽约时报披露了谷歌的google brain项目,吸引了公众的广泛关注。这个项目是由著名的斯坦福大学的机器学习教授Ng和在大规模计算机系统方面的世界顶尖专家Dean共同主导的用16000个CPU Core的并行计算平台训练一种称为深度神经网络 (Deep Neural Networks,DNN)的机器学习模型,该模型在语音识别和图像识别等领域获得了巨大的成功。

2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别英中机器翻译和中文语音合成,效果非常流畅。据报道后面支撑的关键技术也是DNN,【或者深度学习(deep learning,DL)】

2013年的1月在中国最大的互联网搜索引擎公司百度的年会上,创始人兼CEO李彦宏高调宣布要成立百度研究院,其中第一个重点方向的就是深度学习,并为此而成立Institute Of Deep Learning(IDL).这是百度成立10多年以来第一次成立研究院。2013年4月,麻省理工学院技术评论MIT Technology Review杂志将深度学习列为2013年十大突破性技术“Break Through Technology”之首。

为什么深度学习受到学术届和工业界如此广泛的重视?深度学习技术研发面临什么样的科学和工程问题?深度学习带来的科技进步将怎样改变人们的生活?本文将简要回顾机器学习在过去20多年的发展介绍深度学习的昨天,今天和明天。

机器学习的两次浪潮:从浅层学习到深度学习

在解释深度学习之前我们需要了解什么是机器学习。机器学习是人工智能的一个分支,而在很多时候几乎成为人工智能的代名词。简单来说机器学习就是通过算法使得机器能从大量历史数据中学习规律从而对新的样本做智能识别或对未来做预测。从20世纪80年代末期以来机器学习的发展大致经历了两次浪潮浅层学习Shallow Learning和深度学习Deep Learning.需要指出是机器学习历史阶段的划分是一个仁者见仁智者见智的事情,从不同的维度来看会得到不同的结论。这里我们是从机器学习模型的层次结构来看的。

第一次浪潮:浅层学习

20世纪20年代末期用于人工神经网络的反向传播算法,也叫Back Propagation算法或者BP算法,的发明给机器学习带来了希望,掀起了基于统计模型的机器学习热潮.这个热潮一直持续到今天.人们发现利用BP算法可以让一个人工神经网络模型从大量训练样本中学习出统计规律从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的系统在很多方面显示出优越性。

这个时候的人工神经网络虽然也被称作多层感知机multi-layer Perceptron。由于多层网络训练的困难,实际使用的多数是只含有一层隐层节点的浅层模型。

20世纪90年代,各种各样的浅层机器学习模型相继被提出。比如支撑向量机Support Vector Machine,Boosting,最大熵方法,比如logistic regression,LR等.这些模型的结构基本上可以看成带有一层隐层节点如SVM,Boosting,或没有隐层节点如LR。这些模型在无论是理论分析还是应用都获得了巨大的成功。相比较之下,由于理论分析的难度而且训练方法需要很多经验和技巧,这个时期多层人工神经网络反而相对较为沉寂。

2000年以来互联网的高速发展,对大数据的智能化分析和预测提出了巨大需求。浅层学习模型在互联网应用上获得了巨大的成功。最成功的应用包括搜索广告系统,比如谷歌的Adwords,百度的凤巢系统的广告点击率CTR预估,网页搜索排序,比如雅虎和微软的搜索引擎,垃圾邮件过滤系统,基于内容的推荐系统等等。

第二次浪潮:深度学习

2006年加拿大多伦多大学教授机器学习领域的泰斗Hinton和他的学生Salakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要的讯息:

  1. 1. 很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻划,从而有利于可视化或分类。
  2. 2. 深度神经网络在训练上的难度可以通过“逐层初始化Layer-wise-pre-training”来有效克服。在这篇文章中逐层初始化是通过无监督学习实现的。

自2006年以来深度学习在学术界持续升温。斯坦福大学纽约大学加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Huble-Wiesel模型.由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。

除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段。但在应用领域已经显现巨大能量。2011年以来微软研究院和谷歌的语音识别研究人员先后采用DNN技术降低语音识别错误率20%-30%,是语音识别领域10多年来最大的突破性进展。2012年DNN技术在图像识别领域取得惊人的效果在ImageNet评测上将错误率从26%降低到15%.在这一年DNN还被应用于制药公司的DrugeActivity预测问题并获得世界最好成绩,这一重要成果被纽约时报报道。

正如文章开头所描述的,今天谷歌微软百度等知名的拥有大数据的高科技公司争相投入资源占领深度学习的技术制高点,正是因为他们都看到了,在大数据时代更加复杂且更加强大的深度模型,能够深刻揭示海量数据里所承载的负责而丰富的信息,并对未来或未知事件做更精准的预测。

大数据与深度学习

在工业界一直有一个很流行的观点,在大数据条件下简单的机器学习模型会比复杂模型更加有效。比如说,在很多的大数据应用中最简单的线性模型得到大量使用。而最近深度学习的惊人进展促使我们也许到了要重新思考这个观点的时候。简而言之,在大数据情况下也许只有比较复杂的模型或者说表达能力强的模型才能够充分发掘海量数据中蕴藏的丰富信息。现在我们到了需要重新思考“大数据+简单模型”的时候。运用更强大的深度模型也许我们能从大数据中发掘出更多的有价值的信息和知识。

为了理解为什么大数据需要深度模型,先举一个例子。语音识别已经是一个大数据的机器学习问题。在其声学建模部分通常面临的是十亿到千亿级别的训练样本。

在谷歌的一个语音识别实验中发现,训练后的DNN对训练样本和测试样本的预测误差基本相当.这是非常违反常识的。因为通常模型在训练样本上的预测误差会显著小于测试样本.只有一个解释就是由于大数据里含有丰富的信息维度,使得即便是DNN这样的高容量复杂模型也是处于欠拟合的状态,更不必说传统的GMM声学模型了.所以在这个例子里我们看出,大数据更加需要深度学习。

浅层模型有一个重要特点,就是假设靠人工经验来抽取样本的特征,而强调模型主要是负责分类或预测。在模型的运用不出差错的前提下,比如假设互联网公司聘请的是机器学习的专家,特征的好坏就成为整个系统性能的瓶颈。因此通常一个开发团队中更多的人力是投入到发掘更好的特征上的。发现一个好的特征,要求开发人员对待解决的问题要有很深入的理解。而达到这个程度往往需要反复的摸索甚至是数年磨一剑。因此人工设计样本特征不是一个可扩展的途径。

深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据来学习更有用的特征,从而最终提升分类或预测的准确性。所以,深度模型是手段,特征学习是目的。区别于传统的浅层学习,深度学习的不同在于:

1 强调了模型结构的深度,通常有5层6层甚至10多层的隐层节点;

2 明确突出了特征学习的重要性。也就是说,通过逐层特征变换,将样本在原空间的特征表示,变换到一个新特征空间。从而使分类或预测更加容易。

与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻划数据更丰富内在信息。所以在未来的几年里我们将看到越来越多的,深度模型+大数据的应用,而不是浅层的线性模型。

作者:余凯、贾磊、陈雨强、徐伟

余凯,百度深度学习研究院(IDL)常务副院长,第九批"千人计划“国家特聘专家,知名机器学习专家。斯坦福大学计算机系Adjunct Faculty (2011), 南京大学兼职教授 (2013-),北京邮电大学兼职教授 (2013-),和中科院计算所客座研究员 (2013-)

原文发布时间为:2014-06-07

时间: 2017-05-02

深度学习的昨天,今天和明天的相关文章

一入侯门“深”似海,深度学习深几许(深度学习入门系列之一)

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud  [导言]目前人工智能非常火爆,而深度学习则是引领这一火爆现场的"火箭".于是,有关"深度学习"的论文.书籍和网络博客汗牛充栋,但大多数这类文章都具备"高不成低不就"的特征.对于高手来说,自然是没有问题,他们本身已经具备非常"深度"的学习能力,如果他们想学习有关深度学习的技术,直接找来最新的研究论文阅读就好了.但是,对于低手(初学者)而言,

AI 战略剑指GPU,英特尔Nervana 平台将推首款深度学习芯片

2016年11月17日,英特尔公司宣布推出一系列涵盖从前端到数据中心的全新产品.技术及相关投资计划,旨在拓展人工智能(AI)的发展空间并加速其发展速度. 英特尔首席执行官科再奇近期分享了英特尔对人工智能的前景及复杂性的洞察,他指出,人工智能需要众多的领先技术的支撑,以及一个可超出初期采用者范围的更大规模的生态系统.随着目前的算法日益复杂以及所需数据集的不断增加,科再奇表示,英特尔深刻知道如何满足需求且完全有能力提供所需的技术来驱动这一计算转型. 战略要点:英特尔 Nervana 平台 英特尔宣布

ACL 第一天:Tutorial钟爱深度学习,唯一一个workshop关注女性群体| ACL 2017

雷锋网AI科技评论按:计算机语言学和自然语言处理最顶尖的会议之一ACL 将于2017年7月30日至8月4日在加拿大温哥华举行.雷锋网(公众号:雷锋网) AI 科技评论将赴前线带来一手报道,并对论文及大会概况进行梳理. 今天是预热 tutorial 环节,也是 ACL 会议延续至今的传统,旨在帮助研究领域的新手们了解计算机语言学与自然语言处理的核心技术,同时也会介绍目前这些分领域的一些前沿内容. 今年的 Tutorial 主席是科罗拉多大学的 Jordan Boyd-Grabe 和柏林洪堡大学的

第30届IROS正式开幕,深度学习当道的机器人会议都有什么精彩亮点?(多图)

2017年9月25日,全球机器人规模最大的学术会议之一.IROS(International Conference on Intelligent Robots and Systems,国际智能机器人与系统大会)在加拿大温哥华正式开幕,来自全球各地的2000多名机器人方面的专家和学者参加了本次会议. (展会现场的IROS历届举办城市海报) 自1988年在日本举办首届IROS以来,今年正好是第30届IROS,大会的主办方也特地收集了30年来的历届IROS照片和视频.随着正会的开场,今天的会场也进行了

零基础入门深度学习(5) - 循环神经网络

  在前面的文章系列文章中,我们介绍了全连接神经网络和卷积神经网络,以及它们的训练和使用.他们都只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的.但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的.   比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列:当我们处理视频的时候,我们也不能只单独的去分析每一帧,而要分析这些帧连接起来的整个序列.这时,就需要用到深度学习领域中另一类非常重要神经网络:循

搜狗深度学习技术在广告推荐领域的应用

内容来源:2017年4月17日,搜狗移动搜索广告策略研究组负责人舒鹏在七牛云和QCon联合主办的深度学习论坛"深度学习最新进展与实践"上进行<搜狗深度学习技术在广告推荐领域的应用>演讲分享. 编者按 近来,深度学习成为一个流行词.深度学习可以更好地通过增加数据集的规模来改善学习结果,与传统的机器学习工具相比,深度学习挖掘了神经网络的潜力.基于强大的特征提取,它比其他工具更适合模式识别(图像.文本.音频).深度学习应用的范畴也越来越广.这次搜狗移动搜索广告策略研究组负责人舒鹏

MIT 开了一门只有九小时的课,教你用深度学习构建自动驾驶

MIT 紧跟时代步伐,开设的 6.S094 课程名为<为自动驾驶构建深度学习>的课程,旨在教学生们为自动驾驶搭建一个深度学习系统,授课者为 Lex Fridman.课程要求学生拥有基本的编程知识(最好是 Python). 全课只有九节一小时的课程,于 1 月 9 日开课,今天就结课啦.而且!据雷锋网从议程表上了解到,从开课一直到 1 月 16 日,官网表示会陆续放出 PPT 及视频文件,雷锋网(公众号:雷锋网)会持续关注. DeepTesla 与 DeepTraffic 就是 MIT 这门课程

深度学习的三种硬件方案 ASICs、FPGAs 和 GPU,开发者需要知道什么?

今年三月 AlphaGo 和李世石的"世纪之战"炒红了深度学习-- AlphaGo 采用了人工神经网络技术,充分挖掘了深度学习的潜力.简单来说,深度学习是一个包含了许多层级数据处理的神经网络,以自动化方式组合起来解决问题. 人机大战之前,相当多的人并不看好 AlphaGo,包括许多围棋.AI 业内人士 .但公众并不清楚的是:当时谷歌手中握着一张王牌--AlphaGo 的计算设备搭载了特制硬件,一个被谷歌称为"Tensor Processing Unit"(TPU)的

深度学习如何落地安防应用?为何被称为安防行业的颠覆性力量?

近日,市场研究&咨询公司GrandViewResearch发布了一份深度学习市场分析报告.报告表明,2016年全球深度学习市场估值为2.72亿美元,其在自动驾驶和医疗行业的应用越来越多,有望为行业增长做出突出贡献.这项技术的崛起得益于数据驱动的复杂应用,包括语音和图像识别,它可以和其他技术一起克服大数据量和高计算能力的挑战以及改进数据存储.同时在刚举行的"2017 CCF青年精英大会"上,香港中文大学教授汤晓鸥作了<人工智能的明天,中国去哪?>的主题演讲.其中,针对