小小千想和您聊一聊

当前位置: 首页> 技术分享> 第1章 深度学习简介

第1章 深度学习简介

  本章学习目标

  l 了解深度学习的历史与现状;

  l 掌握深度学习的基本概念;

  l 了解深度学习未来的发展趋势。

  在构思可编程的计算机时,人类便开始思考计算机是否能够变得更加智能。在1950年,被誉为“计算机科学之父”及“人工智能之父”的英国数学家Turing(阿兰·图灵)提出一个设想:把一个人和一台计算机隔离在两间房间,然后让房间外的一个提问者对两者进行问答测试,如果提问者无法判断提问对象(人或机器人),则证明计算机已具备人的智能。上述设想就是著名的图灵测试,这是最早对人工智能的设想。

  从图灵机的概念提出到现在,计算机科学经过半个世纪的发展,远未达到图灵所设想的标准,因此有人会把人工智能归为和永动机一样的“伪科学”。不过,近年来出现的深度学习(Deep Learning)在人工智能中的突出表现,让人类在实现图灵测试的道路上又前进了一大步。在2013年,《麻省理工学院技术评论》杂志将深度学习列为当年度十大突破性技术之首。

  在即将到来的人工智能时代,深度学习已成为人工智能领域的重要技术支撑。本书将带领大家一起从零开始逐步探索人工智能。

  1.1 什么是机器学习

  著名学者赫伯特·西蒙教授(Herbert Simon)曾对“学习”下了一个定义:“如果一个系统能够通过执行某个过程来改进其性能,那么这个过程就是学习”。从西蒙教授的定义中可以看出,学习的核心目的是改善。对于计算机系统而言,它通过运用数据及某种特定的方法(例如统计的方法或推理的方法)来提升机器系统的性能,就是机器学习。

  有关机器学习的定义,卡内基梅隆大学的汤姆·米切尔(Tom Mitchell)教授给出的解释是:“对于某类任务(Task,简称T)和某项性能度量准则(Performance,简称P),如果一个计算机程序在T上,以P作为性能的度量,随着很多经验(Experience,简称E)不断自我完善,这说明该计算机程序在从E中学习了。”

  如果觉得米切尔教授的定义比较抽象,可以参考台湾大学李宏毅博士的说法:机器学习在形式上,近似于在数据对象中通过统计或推理的方法寻找一个适用特定输入和预期输出功能的函数。如图1.1所示。

  图1.1 机器学习可以看作一个函数

  所谓机器学习,在形式上,可以看作一个函数,通过对特定的输入进行处理,得到一个预期的结果。例如: 、 等。但是如何才能让计算机在接收一串语音后知道这句话是“你好”而不是其他的内容呢?这就需要构建一个评估体系来判断计算机通过学习是否能够输出理想的结果,如此便可以通过训练数据(training data)来“培养”机器学习算法的能力,如图1.2所示。

  图1.2 机器学习的过程

  从上图可以看出, 对图像的识别是错误的,学习效果并不理想,经过训练数据的“培养”,将输出结果不理想的 改善为输出结果较为理想的 ,判定的准确度提到了,这种改善的过程便可以被称为学习!这个学习过程是由机器完成的,那就是“机器学习”了。

  1.2 什么是深度学习

  深度学习是机器学习的一个重要分支,通过构建具有多个隐藏层的机器学习模型和海量的训练数据来学习更有用的特征,从而最终提升分类或预测的准确性。简单来讲,机器学习是实现人工智能的一种方法,而深度学习则是实现机器学习的一种技术。

  在涉及语音、图像等复杂对象的应用中,深度学习技术证明了其优越的性能。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。与以往的机器学习相比,深度学习对使用者的要求有所降低,使用者只需调节正确的相关参数,学习的效果一般都较为理想,这促进了机器学习从实验技术走向工程实践。以上只是对深度学习的一个简单概括,并不能全面的解释什么是深度学习。因为神经网络中的深层构架差异巨大,对不同任务或目标的优化会有不同的操作。通过机器学习的发展历程来理解深度学习可能是一种更好的方法。

  在人工智能的发展初期,计算机主要发挥了善于处理形式化的数学规则的特性,比人类更加快速高效的完成形式化的任务。这让人工智能在初期相对朴素和形式化的环境中取得了成功,这种环境对计算机所需具备的关于世界的知识的要求很低。例如,在形式和规则十分固定的国际象棋领域,人工智能取得了巨大成就。在1997年,IBM公司研制的深蓝(Deep Blue)击败了当时的国际象棋世界冠军Garry Kasparov。事实上,一台计算机理解国际象棋中固定的64格棋盘、严格按照规则进行移动的32个棋子以及胜利条件并不难,相关概念完全可以由一个非常简短、完全形式化的规则列表进行描述并输入计算机中。

  然而,在处理抽象的非形式化任务时,人工智能却显得比人类“笨拙”得多,人工智能的处理水平往往难以达到人类平均水平。例如,对于人类而言可以很轻松的通过直觉识别出静物油画中的一串香蕉,但是机器却难以识别出被油画抽象出的“香蕉”。如今随着人工智能相关领域的飞速发展,计算机对于非形式化任务的处理能力取得了巨大进步,计算机完成识别对象和语音的任务的能力已经达到人类的一般水平。人类的大脑中存储了巨量的有关世界的知识来维持日常生活的需要,让计算机实现强人工智能就需要让其理解这些关于世界的巨量知识,然而,许多相关知识具有主观性,难以通过形式化的方法进行描述,这让计算机在理解这些非形式化的知识无疑是人工智能一项巨大挑战。

  此处有必要先了解一下人类大脑的工作机理。在1981年,Hubel、Wiesel和Sperry等人发现了一种可以有效地降低反馈神经网络的复杂性、独特的神经网络结构,进而提出了卷积神经网络。卷积神经网络的发现揭示了人类视觉的分级系统,在收到视觉刺激后,信息从视网膜出发,经过低级区提取目标的边缘特征,在高一级的区域对目标的基本形状或目标的局部,再到下一层更高级的区域对整个目标进行识别,以及到更高层的前额叶皮层进行分类判断等,即高层的特征是低层特征的组合,信息的表达由低层到高层越来越抽象和概念化。这个发现激发了人们对于神经系统的进一步思考,大脑的工作过程,是一个对接收信号不断迭代、不断抽象概念化的过程。以识别油画中的想香蕉为例,首先摄入原始信号(瞳孔摄入像素),然后进行初步处理(大脑皮层某些神经细胞发现香蕉的边缘和方向),对处理后的信息进行抽象(大脑判定眼香蕉的形状,比如是长型略微弯曲的),进一步抽象(大脑进一步判定该物体是香蕉),最后识别出图中画的是一串香蕉。由此例可以看出,大脑是一个深度架构,认知的过程是通过大脑逐层分级处理表示的信息实现的。

  无论在计算机科学领域还是人类的日常生活中,各种事物都需要依赖信息的表示。例如大多数学生可能已经习惯了阅读国内英语考试中全部由小写字母组成的文章,可以很快的阅读并完成后面的题目,但是在有些国际性英语能力测试中会出现全部由大写英文字母组成的文章,这时考生可能就需要花更多的时间去适应大写字母组成的单词。同样的单词以不同的表示方式会对考生的阅读产生巨大的影响。相应地,不同的表示方式同样会对机器学习的算法性能产生影响。接下来通过图示的方法展示表示方式对算法性能的影响,如图1.3所示。

  图1.3 两种不同的表示方式

  在图1.3中,左图使用了笛卡尔坐标表示两种类型的数据,显然在这种表示方式下,无法用一条直线来分隔灰色和黑色两种类型的数据;而右图使用极坐标表示可以很容易用一条垂直的线将两种类型的数据分隔开。

  一般情况下,处理人工智能的方法可以概括为:提取一个恰当的特征集,然后将这些特征提供给简单的机器学习算法。例如,在语音识别中,对声道大小这一特征的识别可以作为判断说话者的性别以及大致年龄的重要线索。

  然而在大多数情况下,人类很难确定应该提取的信息特征。例如,希望让一个程序能够检测出油画中的水果——香蕉。香蕉的特征有黄色的果皮,长型略微弯曲的外形,但是仅以油画中的某一个像素值很难准确的描述香蕉看上去像什么,因为不同的场景下香蕉的摆放角度和光影效果都会不同,如图1.4所示。

  图1.4 两种不同情景下的香蕉

  为了解决上述问题,此时就需要让计算机自身去发掘表示的特征。通过学习让程序去理解一个表示的特征往往比直接输入人为总结的特征更加准确。这就要求计算机学会从原始数据中提取高层次、抽象的特征。

  深度学习让计算机可以通过组合低层特征形成更加抽象的高层特征(或属性类别)。深度学习算法可以从原始图像去学习一个低层次表达,例如边缘检测器、小波滤波器等,然后在这些低层次表达的基础上,通过线性或者非线性组合,来获得一个高层次的表达。

  1.2.1 深度学习的发展

  围绕着人工智能如何理解关于世界的知识,科学家用不同的方法进行了不同的探索和尝试。在国际上,学者们对机器学习的发展阶段并没有非常明确的划分规则,本书将机器学习的发展划分为推理期、知识期、学习期、快速发展期和爆发期。

  1.推理期

  从 20 世纪50 年代到 70 年代初,人工智能发展尚处于推理期,这一时期的机器学习只能称为感知,即认为只要给机器赋予逻辑推理能力,机器就具有了智能。最早的人工智能实践起源于1943年的人工神经元模型,该模型的神经元主要包含了输入信号以及对信号进行线性加权、求和、非线性激活(阈值法)三个过程,希望通过计算机来模拟人类神经元的活动方式,如图1.5所示。

  图1.5 早期通过计算机来模拟人类的神经元活动的方式

  在1958年,Frank Rosenblatt第一次将人工神经元模型用于机器学习,发明了感知器(Perceptron)算法。该算法使用人工神经元模型对输入的多维数据进行二分类,且能够使用梯度下降法从训练样本中自动学习更新权值。1962年,该方法被证明为能够收敛,理论与实践效果引起第一次神经网络的浪潮。

  然而机器学习的发展并不总是一帆风顺的。1969年,美国数学家Marvin Minsky在其著作中证明了感知器本质上是一种线性模型,只能处理线性分类问题,在处理其他问题时无法正常分类(例如异或问题)。人们逐渐意识到,仅有逻辑推理能力是远远无法实现人工智能的,还需要赋予机器理解世界知识的能力。

  2.知识期

  20 世纪 70 年代中期开始,人工智能进入了知识期。在这一时期,人们将关于世界的知识用形式化的语言进行硬编码,使得计算机可以使用逻辑推理规则来自动地理解这些关于世界的知识。这种方法被称为人工智能的知识库方法,其中Douglas Lenat的Cyc项目最为著名。Cyc由推断引擎和使用CycL语言(Cyc项目的专有知识表示语言)描述的声明数据库组成,该项目最开始的目标是将上百万条知识编码成机器可用的形式。在当时,Lenat预测完成Cyc这样庞大的常识知识系统(涉及到的规则高达25万条),需要花费350人年才能完成。由人将世界知识用形式化的语言进行硬编码的工程显然过于庞大和低效,因此,AI系统需要具备自己获取有关世界我的知识的能力,从而增强系统对未知事件的预测和理解。

  3.学习期

  在1986年,加拿大多伦多大学的Geoffrey Hinton教授发明了适用于多层感知器的人工神经网络反向传播算法(Back Propagation,简称BP)。它有效解决了神经网络在处理非线性分类和学习中的瓶颈,引起了神经网络的第二次热潮,这个热潮一直持续到今天。通过BP算法可以让一个人工神经网络模型从大量训练样本中学习样本中的规律,从而对未知事件进行预测和理解。这种基于统计的机器学习方法比过去基于人工规则的系统,在训练的准确性和效率上取得了巨大进步。这个阶段的人工神经网络,虽然被称作多层感知机(Multi-layer Perceptron),但实际上是一种只含有一层隐层节点的浅层学习模型。由于神经网络存在过拟合、调参困难、训练效率较低,在层级小于等于3的情况下并不比其他方法更优。

  在90年代,由于神经网络的问题,其他各种各样的浅层机器学习模型相继被提出,比如支撑向量机(SVM,Support Vector Machines)、Boosting、最大熵方法(例如LR, Logistic Regression逻辑回归)等。这些模型的结构基本上可以看成带有一层隐层节点(如SVM、Boosting)或没有隐层节点(如LR)。多数分类、回归等学习方法均为浅层结构算法,主要局限性在于有限样本和计算单元无法满足对复杂函数的表示能力的需求,针对复杂分类问题的泛化能力受到制约。直到1989年,Hinton和LeCun等人发明了卷积神经网络(Convolutional Neural Network,简称为CNN),并将其用于识别数字,且取得了较好的成绩。

  4.快速发展期

  2006年, Hinton教授和他的学生Salakhutdinov在《科学》上发表了一篇有关人工神经网络的论文中提出了无监督贪心逐层训练(Layerwise Pre-Training)算法,其主要思想是先通过自学习的方法学习到训练数据的结构(自动编码器),然后在该结构上进行有监督训练微调。这篇论文指出多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征可以更准确的描绘出数据的本质,从而有利于可视化或分类。深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。Hinton提出了深层网络训练中梯度消失问题的解决方案:无监督预训练对权值进行初始化,然后进行有监督训练微调。2011年激活函数的理念被提出,激活函数能够有效的抑制梯度消失问题。

  深度学习是一列在信息处理阶段利用无监督特征学习和模型分析分类功能的,具有多层分层体系结构的机器学习技术。深度学习的本质是对观察数据进行分层特征表示,实现将低级特征进一步抽象成高级特征表示。

  5.爆发期

  在2012年,Hinton带领的小组为了证明深度学习的潜力,使用通过CNN网络架构的AlexNet在ImageNet图像识别比赛中获得冠军,这场比赛之后CNN吸引到了众多研究者的注意。 AlexNet采用使用了激活函数的纯粹有监督学习,激活函数的使用极大的提高了收敛速度且从根本上解决了梯度消失问题。

  从目前的最新研究进展来看,只要数据足够大、隐藏层足够深,即便没有预热训练,深度学习也可以取得很好的结果。这凸显出大数据和深度学习的相辅相成。无监督学习曾是深度学习的一个优势,但有监督的卷积神经网络(Convolutional Neural Network:CNN)算法正逐渐成为主流。2015年,Hinton,LeCun,Bengio等人论证了Loss的局部极值问题对于深度学习的影响可以忽略,该论断消除了笼罩在神经网络上的局部极值问题的阴霾。

  1.2.2 深度学习的三个层次

  在《论语·阳货》中提到“性相近也,习相远也”,这句话同样适用于机器学习领域。机器学习的对象是数据,数据是否带有标签,会对机器学习最后习得的“习性”产生影响,“习染积久”的环境不一样,其表现出来的“习性”也有所不同,大致可分为三类:

  1. 监督学习(Supervised Learning)

  美国伊利诺伊大学香槟分校计算机系的韩家炜(Jiawei Han)教授认为监督学习可以被看做 “分类(classification)”的代名词。计算机从有标签的训练数据中学习,然后给定某个新数据,预测这个新数据的标签,标签(label)是指某个事物所属的类别。可以参考图1.6中的内容辅助理解监督学习的过程。

  图1.6 监督学习的形式

  在监督学习下,计算机就像一个“学生”,根据“老师”给出的带有标签的数据进行学习。图1.6的上图中,老师告诉学生,图片里是一只猫,计算机便会总结图中“猫”的特征,并将符合这些特征的事物定义为“猫”。如果换一张不同的“猫”,计算机能够识别出这是一只“猫”,那么便可以说这是一次成功的标签分类。但机器学习显然不可能仅从一张图中便习得准确辨识“猫”的技能。计算机可能无法识别新的“猫”或者识别成其他动物,这时“老师”就会纠正计算机的偏差,并告诉计算机这个也是“猫”。通过大量的反复训练让计算机习得不同的“猫”具有的共同特征,这样,再遇到新的“猫”时,计算机就更可能给出正确的答案。

  简单来说,监督学习的工作,就是通过有标签的数据训练,构建一个模型,然后通过构建的模型,给新数据添加上特定的标签。

  事实上,机器学习的目标可以概括为:让计算机通过学习不断完善构建的模型,让构建的模型更好地适用于“新样本”,而不是仅仅在训练样本上工作得更好。通过训练构建的模型适用于新样本的能力,称为泛化(generalization)能力。

  2. 无监督学习(Unsupervised Learning)

  无监督学习中模型所学习的数据都是无标签的,根据类别未知的训练样本解决模式识别中的各种问题。无监督学习可以被看作聚类(cluster)的近义词,为了方便理解可以结合图1.7理解无监督学习的过程。

  图1.7 无监督学习的形式

  简单来说,给定一批数据,但不告诉计算机这批数据是什么,让计算机自己通过学习构建出这批数据的模型,至于能能学到什么,取决于数据自身所具备的特性。俗话说“物以类聚,人以群分”可以看作是在“无监督学习”环境下构建模型的过程,一开始我们并不知道这些“类”和“群”中元素的标签,经过长期的归纳和总结,我们将具有共同特征的事物归为一个“类”或“群”中。以后再遇到新的事物,就根据它的特征更接近哪个“类”或“群”,就“预测”它属于哪个“类”或“群”,从而完成对新数据的“分类”或“分群”,与此同时,通过学习构筑的模型也进一步完善。

  3. 半监督学习(Semi-supervised Learning)

  半监督式学习方法同时使用了有标签数据和非标签数据。学生从小学到大学一直接受者来自学校和家庭的教育,老师和家长一直教育学生明辨是非的方法,学生在此期间不断改善自身的性情,让自己成为一个品行优秀的人。这个过程可以被看作处于“监督学习”的环境中。当学生成年、毕业以后离开了家长和学校的“监督”,没有人再对其行为对与错进行监督。此时只能靠自己之前积累的经验和知识来帮助自己判断是非,在社会中试错,磨练自己,丰富自己对世界的认知,帮助自己恰当的应对新的事物。半监督环境是先在有监督的环境下初步构建好模型后再进行无监督学习。

  图1.8 半监督学习

  形式化的定义比较抽象,下面通过一个现实生活中的例子,来辅助说明这个概念。假设图中的学生已经学习到以下两个标签数据。

  (1) 图1.8上图中左边的动物(数据1)是一只猫(标签:猫)

  (2) 图1.8上图中右边的动物(数据2)是一只猫(标签:猫)

  此时,该学生并不知道图1.8中下图的东西是什么,但这个东西和他之前学习到的有关猫的特征很接近,那么该学生便可以猜测下图中的东西是一只猫。

  对下图中的猫进行识别后,该学生已知领域(标签数据)便进一步扩大(由两个扩大到三个),这个过程便是半监督学习。事实上,半监督学习就是先用带有标签的数据帮助计算机初步构建模型,然后让计算机根据已有的模型去学习无标签的数据。需要注意的是,这里隐含了一个基本假设——“聚类假设(Cluster Assumption)”,即相似的样本,拥有相似的输出。

  在大数据时代,半监督学习的现实需求非常强烈。因为有标签数据的收集和标记需要消耗大量的人力物力,而海量的非标签数据却触手可及,“半监督学习”将称为大数据时代的发展趋势。

  1.2.3 深度学习的三种结构类型

  深度学习从神经网络的结构和技术应用上可以划分为三类:生成型深度结构,判别型深度结构,混合型深度结构。

  1. 生成型深度结构

  生成型深度结构旨在模式分析过程中描述观测数据的高阶相关特征,或者描述观测数据与其相关类别的联合概率分布,这方便了先验概率和后验概率的估计,通常使用无监督学习处理该结构的学习。当应用生成模型结构到模式识别中时,一个重要的任务就是预训练。但是当训练数据有限时,学习较低层的网络是困难的。因此,一般采用先学习每一个较低层,然后再学习较高层的方式,通过贪婪地逐层训练,实现从底向上分层学习。属于生成型深度结构的深度学习模型有:自编码器、受限玻尔兹曼机、深度置信网络等。

  2. 判别型深度结构

  判别型深度结构目的是提供对模式分类的区分性能力,通常描述数据的后验分布。卷积神经网络(Convolutional Neural Network,简称为CNN)是第一个真正成功训练多层网络结构的学习算法,它属于判别型训练算法。受视觉系统结构的启示,当具有相同参数的神经元应用于前一层的不同位置时,便可以捕获一种变换不变性特征。经过不断的发展,出现了利用BP算法设计训练的CNN。CNN作为深度学习框架是基于最小化预处理数据要求而产生的。受早期的时间延迟神经网络影响,CNN通过共享时域权值降低复杂度。CNN是利用空间关系减少参数数目以提高一般前向BP训练的一种拓扑结构,并在多个实验中获取了较好性能。在CNN中被称作局部感受区域的图像的一小部分作为分层结构的最底层输入。信息通过不同的网络层次进行传递,因此在每一层能够获取对平移、缩放和旋转不变的观测数据的显著特征。

  3. 混合型深度结构

  混合型深度结构的目的是对数据类型进行判别、分类,该学习过程包含两个部分:生成部分和区分部分。在应用生成型深度结构解决分类问题时,因为现有的生成型结构大多数都是用于对数据的判别,可以结合判别型模型在预训练阶段对网络的所有权值进行优化,例如通过深度置信网络进行预训练后的深度神经网络。区分型寻求最优的过程通常会附加一个顶层变量来表示训练集提供的期望输出或标签。BP算法可用于优化DBN权值,它的初始权值通过在RBM和DBN预训练中得到而非随机产生,这样的网络通常会比仅通过BP算法单独训练的网络性能优越。

  1.3 深度学习的研究现状

  深度学习极大地促进了机器学习的发展,受到了世界各国相关领域研究人员和高科技公司的重视,语音、图像和自然语言处理是深度学习算法应用最广泛的三个主要研究领域。

  1. 深度学习在语音识别领域研究现状

  高斯混合模型(Gaussian Mixed Model,简称GMM)估计简单、使用方便,适合训练大规模数据,具有良好的区分度训练算法,这奠定了GMM在语音识别应用领域的主导性地位。在语音识别任务中,通常采用GMM来对其中每个单元的概率模型进行描述。然而, GMM作为一种浅层学习网络模型,其无法充分描述特征的状态空间分布。此外,通过GMM建模数据的特征通常只有数十个维度,特征之间的相关性很可能无法被充分描述。最后GMM建模实质上是一种似然概率建模方式,即使一些模式分类之间的区分性能够通过区分度训练模拟得到,但是效果有限。

  从2009年开始,微软亚洲研究院的语音识别专家们和深度学习领军人物Hinton合作。2011年微软公司推出基于深度神经网络的语音识别系统,这一成果将语音识别领域已有的技术框架完全改变。采用深度神经网络后,样本数据特征间相关性信息得以充分表示,将连续的特征信息结合构成高维特征,通过高维特征样本对深度神经网络模型进行训练。由于深度神经网络采用了模拟人脑神经架构,通过逐层的进行数据特征提取,最终得到适合进行模式分类处理的理想特征。

  2. 深度学习在图像识别领域研究现状

  深度学习最早涉足的领域便是图像处理任务。1989年,加拿大多伦多大学教授Yann LeCun和他的同事便提出了卷积神经网络的相关理念,该网络是一种包含卷积层的深度神经网络模型。通常一个卷积神经网络架构包含两个可以通过训练产生的非线性卷积层,两个固定的子采样层和一个全连接层,隐藏层的数量一般至少在5个以上。CNN的架构设计是受到生物学家Hube和Wiesel的动物视觉模型启发而发明的,尤其是模拟动物视觉皮层的V1层和V2层中简单细胞和复杂细胞在视觉系统的功能。起初卷积神经网络在小规模的问题上取得了当时世界上最好的成果,但是在很长一段时间里一直没有取得重大突破,主要原因是卷积神经网络应用在大尺寸图像上一直不能取得理想结果,比如对于像素数很大的自然图像内容的理解,这一瓶颈使得它没有引起计算机视觉研究领域足够的重视。

  直到2012年Hinton教授构建深度神经网络在图像识别领域上的成就,带来了卷积神经网络在图像识别问题上的一次质的飞跃。Hinton教授对卷积神经网络的算法进行了改进,在模型的训练中引入了权重衰减,这可以有效的减小权重幅度,防止网络过拟合。卷积神经网络方面的研究取得突破也受益于GPU加速技术的发展,强大的计算能力使网络能够更好的拟合训练数据。目前,卷积神经网络被应用于人脸识别领域,通过深度学习模型进行人脸识别,不仅大幅提高了识别精度,同时所花费的资源也比人工进行特征提取要少得多。

  3. 深度学习在自然语言处理领域研究现状

  自然语言处理问题是深度学习在除了语音和图像处理之外的另一个重要的应用领域。数十年以来,自然语言处理的主流方法是基于统计的模型,人工神经网络也是基于统计方法模型之一,但在自然语言处理领域却一直没有被重视。语言建模时最早采用神经网络进行自然语言处理的问题。美国NEC研究院最早将深度学习引入到自然语言处理研究中,其研究院从2008年起采用将词汇映射到一维矢量空间和多层一维卷积结构去解决词性标注、分词、命名实体识别和语义角色标注四个典型的自然语言处理问题。他们构建了一个网络模型用于解决四个不同问题,都取得了相当精确的结果。总体而言,深度学习在自然语言处理上取得的成果和在图像语音识别方面相差甚远,仍有待深入研究。

  深度学习是高度数据依赖型的算法,它的性能通常随着数据量的增加而不断增强,即它的可扩展性(Scalability)显著优于传统的机器学习算法。但如果训练数据比较少,深度学习的性能并不见得就比传统机器学习好。其潜在的原因在于,作为复杂系统代表的深度学习算法,只有数据量足够多,才能通过训练,在深度神经网络中,“恰如其分”地将把蕴含于数据之中的复杂模式表征出来。

  1.4 本章小结

  本章主要讲解了“机器学习”和“深度学习”的定义,并介绍了二者的区别。对深度学习的起源、发展以及主要的核心内容进行了初步的讲解,希望以此帮助大家建立对“深度学习”的初步认知。接下来本书将在后续章节中对深度学习的相关知识点进行详细的讲解。

  1.5 习题

  1.填空题

  (1) 学习是机器学习的一个重要分支, 学习是实现人工智能的一种方法,而 学习则是实现机器学习的一种技术。

  (2) 在人工智能发展的早期,与人类相比,计算机擅长处理 的任务,不擅长处理 任务。

  (3) 从 20 世纪50 年代到 70 年代初,人工智能发展尚处于“推理期”,科学家们认为只要给机器赋予 能力,机器就具有了智能。

  (4) 算法是先通过自学习的方法学习到训练数据的结构(自动编码器),然后在该结构上进行有监督训练微调。

  (5) 深度学习的三种结构类型分别是: 、 、 。

  2.选择题

  (1)在图像识别任务中,计算机自己去发掘和学习图形中的特征往往比直接输入人为总结的特征更加准确,这要求计算机学会从原始数据中提取( )的特征。

  A.高层次、具体的 B.低层次、具体的

  C.高层次、抽象的 D.低层次、抽象的

  (2) 最早的人工智能实践起源于1943年的人工神经元模型,该模型的神经元主要包含了输入信号以及对信号进行处理,该模型中信号的处理过程不包括( )。

  A.求和 B.非线性激活

  C.加权 D.二分类

  (3) 下列算法中,属于深层算法的是( )。

  A.知识库方法 B.BP算法

  C.最大熵方法 D.卷积神经网络算法

  (4) 深度学习的三个层次不包括( )。

  A.有监督学习 B.半监督学习

  C.无监督学习 D.交替监督学习

  (5) 浅层机器学习模型不包括以下哪种( )。

  A.SVM B.最大熵方法

  C.Boosting D.递归神经网络

  3.思考题

  (1) 简述深度学习与机器学习的主要区别。

  (2) 在实际任务中,什么情况下应该采用监督学习,什么情况下应该采用无监督学习呢?

上一篇:HTML5工具初识之网页编辑器

下一篇:认识HTML

QQ技术交流群

千锋Python官方①群
790693323

加入群聊