机器学习机器学习入门

发布日期: 2019-02-12

文章字数: 19.1k

阅读时长: 67 分

阅读次数:

第八章神经网络：表述(Neural Networks: Representation)

8.1 非线性假设（Non-linear Hypotheses）

在这节课和接下来的课程中我将给大家介绍一种叫“神经网络”(Neural Network) 的机器学习算法

我们将首先讨论神经网络的表层结构 在后续课程中再来具体讨论的学习算法神经网络实际上是一个相对古老的算法并且后来沉寂了一段时间不过到了现在它又成为许多机器学习问题的首选技术

不过我们为什么还需要这个学习算法？我们已经有线性回归和逻辑回归算法了为什么还要研究神经网络？

为了阐述研究神经网络算法的目的 我们首先来看几个机器学习问题作为例子这几个问题的解决都依赖于研究复杂的非线性分类器

考虑这个监督学习分类的问题我们已经有了对应的训练集如果利用逻辑回归算法 来解决这个问题首先需要构造一个包含很多非线性项的逻辑回归函数这里g仍是s型函数 (即f(x)=1/(1+e^-x) ) 我们能让函数包含很多像这样的多项式项事实上当多项式项数足够多时那么可能你能够得到一个分开正样本和负样本的分界线

当只有两项时比如 x1 x2 这种方法确实能得到不错的结果因为你可以把x1和x2的所有组合都包含到多项式中但是对于许多复杂的机器学习问题涉及的项往往多于两项

我们之前已经讨论过 房价预测的问题 假设现在要处理的是关于住房的分类问题 而不是一个回归问题假设你对一栋房子的多方面特点都有所了解你想预测房子在未来半年内能被卖出去的概率这是一个分类问题

我们可以想出很多特征对于不同的房子有可能就有上百个特征

对于这类问题如果要包含所有的二次项即使只包含二项式或多项式的计算最终的多项式也可能有很多项

比如x1^2 x1x2 x1x3 x1x 直到x1x100 还有x2^2 x2x3 等等很多项因此即使只考虑二阶项也就是说 两个项的乘积 x1乘以x1 等等类似于此的项那么在n=100的情况下最终也有5000个二次项

而且渐渐地随着特征个数n的增加二次项的个数大约以n^2的量级增长其中 n是原始项的个数即我们之前说过的x1到x100这些项事实上二次项的个数大约是(n^2)/2

因此要包含所有的二次项是很困难的所以这可能不是一个好的做法而且由于项数过多最后的结果很有可能是过拟合的此外在处理这么多项时也存在运算量过大的问题

当然你也可以试试只包含上边这些二次项的子集 例如我们只考虑 x1^2 x2^2 x3^2直到 x100^2 这些项这样就可以将二次项的数量大幅度减少减少到只有100个二次项但是由于忽略了太多相关项在处理类似左上角的数据时不可能得到理想的结果实际上如果只考虑x1的平方到x100的平方这一百个二次项那么你可能会拟合出一些特别的假设比如可能拟合出一个椭圆状的曲线 但是肯定不能拟合出像左上角这个数据集的分界线

所以5000个二次项看起来已经很多了而现在假设包括三次项或者三阶项例如x1 x2 x3 x1^2 x2 x10 x11 x17等等类似的三次项有很多很多事实上三次项的个数是以n^3的量级增加当n=100时可以计算出来最后能得到大概17000个三次项所以当初始特征个数n增大时这些高阶多项式项数将以几何级数递增特征空间也随之急剧膨胀当特征个数n很大时如果找出附加项来建立一些分类器这并不是一个好做法

对于许多实际的机器学习问题特征个数n是很大的 举个例子关于计算机视觉中的一个问题假设你想要使用机器学习算法来训练一个分类器使它检测一个图像来判断图像是否为一辆汽车

很多人可能会好奇这对计算机视觉来说有什么难的当我们自己看这幅图像时里面有什么是一目了然的事情你肯定会很奇怪为什么学习算法竟可能会不知道图像是什么

为了解答这个疑问我们取出这幅图片中的一小部分将其放大比如图中这个红色方框内的部分结果表明当人眼看到一辆汽车时计算机实际上看到的却是这个一个数据矩阵 或像这种格网它们表示了像素强度值 告诉我们 图像中每个像素的亮度值 因此对于计算机视觉来说问题就变成了 根据这个像素点亮度矩阵来告诉我们这些数值代表一个汽车门把手

具体而言当用机器学习算法构造一个汽车识别器时 我们要想出一个带标签的样本集其中一些样本是各类汽车另一部分样本是其他任何东西将这个样本集输入给学习算法以训练出一个分类器 训练完毕后我们输入一幅新的图片让分类器判定 “这是什么东西？”

理想情况下分类器能识别出这是一辆汽车

为了理解引入 非线性分类器的必要性 我们从学习算法的训练样本中挑出一些汽车图片和一些非汽车图片

让我们从其中每幅图片中挑出一组像素点这是像素点1的位置这是像素点2的位置在坐标系中标出这幅汽车的位置 在某一点上车的位置取决于像素点1和像素点2的亮度

让我们用同样的方法标出其他图片中汽车的位置然后我们再举一个关于汽车的不同的例子观察这两个相同的像素位置 这幅图片中像素1有一个像素强度像素2也有一个不同的像素强度所以在这幅图中它们两个处于不同的位置

我们继续画上两个非汽车样本这个不是汽车这个也不是汽车然后我们继续在坐标系中画上更多的新样本

用’’+”表示汽车图片用“-”表示非汽车图片我们将发现汽车样本和非汽车样本分布在坐标系中的不同区域因此我们现在需要一个非线性分类器来尽量分开这两类样本

这个分类问题中特征空间的维数是多少？假设我们用50*50像素的图片我们的图片已经很小了长宽只各有50个像素但这依然是2500个像素点因此我们的特征向量的元素数量 N=2500 特征向量X 包含了所有像素点的亮度值这是像素点1的亮度这是像素点2的亮度如此类推直到最后一个像素点的亮度

对于典型的计算机图片表示方法如果存储的是每个像素点的灰度值 (色彩的强烈程度) 那么每个元素的值应该在0到255之间 因此这个问题中n=2500 但是这只是使用灰度图片的情况如果我们用的是RGB彩色图像 每个像素点包含红、绿、蓝三个子像素那么n=7500

因此如果我们非要通过包含所有的二次项来解决这个非线性问题那么这就是式子中的所有条件 xi x xj(笛卡尔积) 连同开始的2500像素总共大约有300万个（(2500^2)/2）这数字大得有点离谱了对于每个样本来说要发现并表示所有这300万个项这计算成本太高了

因此只是简单的增加二次项或者三次项之类的逻辑回归算法并不是一个解决复杂非线性问题的好办法因为当n很大时将会产生非常多的特征项 在接下来的视频课程中我将为大家讲解神经网络它在解决复杂的非线性分类问题上被证明是是一种好得多的算法即使你输入特征空间或输入的特征维数n很大也能轻松搞定

小小的总结–非线性假设

我们之前学的，无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大。

下面是一个例子：

当我们使用$x_1$, $x_2$ 的多次项式进行预测时，我们可以应用的很好。
之前我们已经看到过，使用非线性的多项式项，能够帮助我们建立更好的分类模型。假设我们有非常多的特征，例如大于100个变量，我们希望用这100个特征来构建一个非线性的多项式模型，结果将是数量非常惊人的特征组合，即便我们只采用两两特征的组合$(x_1x_2+x_1x_3+x_1x_4+...+x_2x_3+x_2x_4+...+x_{99}x_{100})$，我们也会有接近5000个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了。

假设我们希望训练一个模型来识别视觉对象（例如识别一张图片上是否是一辆汽车），我们怎样才能这么做呢？一种方法是我们利用很多汽车的图片和很多非汽车的图片，然后利用这些图片上一个个像素的值（饱和度或亮度）来作为特征。

假如我们只选用灰度图片，每个像素则只有一个值（而非 RGB值），我们可以选取图片上的两个不同位置上的两个像素，然后训练一个逻辑回归算法利用这两个像素的值来判断图片上是否是汽车：

假使我们采用的都是50x50像素的小图片，并且我们将所有的像素视为特征，则会有 2500个特征，如果我们要进一步将两两特征组合构成一个多项式模型，则会有约${{2500}^{2}}/2$个（接近3百万个）特征。普通的逻辑回归模型，不能有效地处理这么多的特征，这时候我们需要神经网络。

8.2 神经元和大脑(Neurons and the Brain)

神经网络是一种很古老的算法它最初产生的目的是制造能模拟大脑的机器在这门课中我将向你们介绍神经网络因为它能很好地解决不同的机器学习问题而不只因为它们在逻辑上行得通

在本节课中告诉你们一些神经网络的背景知识由此我们能知道可以用它们来做什么不管是将其应用到现代的机器学习问题上还是应用到那些你可能会感兴趣的问题中也许这一伟大的人工智能梦想在未来能制造出真正的智能机器

另外我们还将讲解神经网络是怎么涉及这些问题的

神经网络产生的原因 是人们想尝试设计出模仿大脑的算法从某种意义上说如果我们想要建立学习系统那为什么不去模仿我们所认识的最神奇的学习机器——-人类的大脑呢神经网络逐渐兴起于二十世纪八九十年代应用得非常广泛但由于各种原因在90年代的后期应用减少了但是最近神经网络又东山再起了

其中一个原因是 神经网络是计算量有些偏大的算法 然而大概由于近些年 计算机的运行速度变快才足以真正运行起大规模的神经网络 正是由于这个原因和其他一些我们后面会讨论到的技术因素如今的神经网络对于许多应用来说是最先进的技术

当你想模拟大脑时是指想制造出与人类大脑作用效果相同的机器对吧？大脑可以学会去以看而不是听的方式处理图像学会处理我们的触觉我们能学习数学学着做微积分而且大脑能处理各种不同的令人惊奇的事情似乎如果你想要模仿它你得写很多不同的软件来模拟所有大脑告诉我们的这些五花八门的奇妙的事情不过能不能假设大脑做所有这些不同事情的方法不需要用上千个不同的程序去实现相反的大脑处理的方法只需要一个单一的学习算法就可以了？尽管这只是一个假设不过让我和你分享一些这方面的证据

大脑的这一部分这一小片红色区域是你的听觉皮层你现在正在理解我的话这靠的是耳朵耳朵接收到声音信号并把声音信号传递给你的听觉皮层正因如此你才能明白我的话

神经系统科学家做了下面这个有趣的实验把 耳朵到听觉皮层的神经切断 在这种情况下将其重新接到一个动物的大脑上这样从眼睛到视神经的信号最终将传到听觉皮层

如果这样做了那么结果表明听觉皮层将会学会“看” 这里“看”代表了我们所知道的每层含义所以如果你对动物这样做那么动物就可以完成视觉辨别任务它们可以看图像并根据图像做出适当的决定它们正是通过脑组织中的这个部分完成的

来看另一个例子

这块红色的脑组织是你的躯体感觉皮层 这是你用来处理触觉的如果你做一个和刚才类似的重接实验那么躯体感觉皮层也能学会”看“ 这个实验和其它一些类似的实验被称为神经重接实验

从这个意义上说如果人体有同一块脑组织可以处理光、声或触觉信号那么也许存在一种学习算法可以同时处理视觉、听觉和触觉而不是需要运行上千个不同的程序或者上千个不同的算法来做这些大脑所完成的成千上万的美好事情也许我们需要做的就是找出一些近似的或实际的大脑学习算法然后实现它大脑通过自学掌握如何处理这些不同类型的数据

在很大的程度上可以猜想如果我们把几乎任何一种传感器接入到大脑的几乎任何一个部位的话大脑就会学会处理它

下面再举几个例子左上角的这张图是用舌头学会“看”的一个例子它的原理是这实际上是一个名为BrainPort的系统它现在正在FDA (美国食品和药物管理局) 的临床试验阶段它能帮助失明人士看见事物它的原理是你在前额上带一个灰度摄像头面朝前它就能获取你面前事物的低分辨率的灰度图像你连一根线到舌头上安装的电极阵列上那么每个像素都被映射到你舌头的某个位置上可能电压值高的点对应一个暗像素电压值低的点对应于亮像素即使依靠它现在的功能使用这种系统就能让你我在几十分钟里就学会用我们的舌头“看”东西

这是第二个例子关于人体回声定位或者说人体声纳你有两种方法可以实现你可以弹响指或者咂舌头这个我做不好不过现在有失明人士确实在学校里接受这样的培训并学会解读从环境反弹回来的声波模式—这就是声纳 如果你搜索 YouTube之后就会发现有些视频讲述了一个令人称奇的孩子他因为癌症眼球惨遭移除虽然失去了眼球但是通过打响指他可以四处走动而不撞到任何东西他能滑滑板他可以将篮球投入篮框中注意这是一个没有眼球的孩子

第三个例子是触觉皮带如果你把它戴在腰上蜂鸣器会响而且总是朝向北时发出嗡嗡声它可以使人拥有方向感用类似于鸟类感知方向的方式还有一些离奇的例子如果你在青蛙身上插入第三只眼青蛙也能学会使用那只眼睛

因此这将会非常令人惊奇如果你能把几乎任何传感器接入到大脑中大脑的学习算法就能找出学习数据的方法并处理这些数据

从某种意义上来说如果我们能找出大脑的学习算法然后在计算机上执行大脑学习算法或与之相似的算法也许这将是我们向人工智能迈进做出的最好的尝试人工智能的梦想就是有一天能制造出真正的智能机器

当然我不是教神经网络的介绍它只因为它可能为我们打开一扇进入遥远的人工智能梦的窗户对于我个人来说它也是我研究生涯中致力于的一个项目但我在这节课中讲授神经网络的原因主要是对于现代机器学习应用它是最有效的技术方法因此在接下来的一些课程中我们将开始深入到神经网络的技术细节那么你就可以将它们应用到现代机器学习的应用中并利用它们很好地解决问题但对我来说使我兴奋的原因之一就是它或许能给我们一些启示让我们知道当我们在思考未来有什么样的算法能以与人类相似的方式学习时我们能做些什么

小小的总结–神经元和大脑

神经网络是一种很古老的算法，它最初产生的目的是制造能模拟大脑的机器。

在这门课中，我将向你们介绍神经网络。因为它能很好地解决不同的机器学习问题。而不只因为它们在逻辑上行得通，在这段视频中，我想告诉你们一些神经网络的背景知识，由此我们能知道可以用它们来做什么。不管是将其应用到现代的机器学习问题上，还是应用到那些你可能会感兴趣的问题中。也许，这一伟大的人工智能梦想在未来能制造出真正的智能机器。另外，我们还将讲解神经网络是怎么涉及这些问题的神经网络产生的原因是人们想尝试设计出模仿大脑的算法，从某种意义上说如果我们想要建立学习系统，那为什么不去模仿我们所认识的最神奇的学习机器——人类的大脑呢？

神经网络逐渐兴起于二十世纪八九十年代，应用得非常广泛。但由于各种原因，在90年代的后期应用减少了。但是最近，神经网络又东山再起了。其中一个原因是：神经网络是计算量有些偏大的算法。然而大概由于近些年计算机的运行速度变快，才足以真正运行起大规模的神经网络。正是由于这个原因和其他一些我们后面会讨论到的技术因素，如今的神经网络对于许多应用来说是最先进的技术。当你想模拟大脑时，是指想制造出与人类大脑作用效果相同的机器。大脑可以学会去以看而不是听的方式处理图像，学会处理我们的触觉。

我们能学习数学，学着做微积分，而且大脑能处理各种不同的令人惊奇的事情。似乎如果你想要模仿它，你得写很多不同的软件来模拟所有这些五花八门的奇妙的事情。不过能不能假设大脑做所有这些，不同事情的方法，不需要用上千个不同的程序去实现。相反的，大脑处理的方法，只需要一个单一的学习算法就可以了？尽管这只是一个假设，不过让我和你分享，一些这方面的证据。

大脑的这一部分这一小片红色区域是你的听觉皮层，你现在正在理解我的话，这靠的是耳朵。耳朵接收到声音信号，并把声音信号传递给你的听觉皮层，正因如此，你才能明白我的话。

神经系统科学家做了下面这个有趣的实验，把耳朵到听觉皮层的神经切断。在这种情况下，将其重新接到一个动物的大脑上，这样从眼睛到视神经的信号最终将传到听觉皮层。如果这样做了。那么结果表明听觉皮层将会学会“看”。这里的“看”代表了我们所知道的每层含义。所以，如果你对动物这样做，那么动物就可以完成视觉辨别任务，它们可以看图像，并根据图像做出适当的决定。它们正是通过脑组织中的这个部分完成的。下面再举另一个例子，这块红色的脑组织是你的躯体感觉皮层，这是你用来处理触觉的，如果你做一个和刚才类似的重接实验，那么躯体感觉皮层也能学会“看”。这个实验和其它一些类似的实验，被称为神经重接实验，从这个意义上说，如果人体有同一块脑组织可以处理光、声或触觉信号，那么也许存在一种学习算法，可以同时处理视觉、听觉和触觉，而不是需要运行上千个不同的程序，或者上千个不同的算法来做这些大脑所完成的成千上万的美好事情。也许我们需要做的就是找出一些近似的或实际的大脑学习算法，然后实现它大脑通过自学掌握如何处理这些不同类型的数据。在很大的程度上，可以猜想如果我们把几乎任何一种传感器接入到大脑的几乎任何一个部位的话，大脑就会学会处理它。

下面再举几个例子：

这张图是用舌头学会“看”的一个例子。它的原理是：这实际上是一个名为BrainPort的系统，它现在正在FDA
(美国食品和药物管理局)的临床试验阶段，它能帮助失明人士看见事物。它的原理是，你在前额上带一个灰度摄像头，面朝前，它就能获取你面前事物的低分辨率的灰度图像。你连一根线到舌头上安装的电极阵列上，那么每个像素都被映射到你舌头的某个位置上，可能电压值高的点对应一个暗像素电压值低的点。对应于亮像素，即使依靠它现在的功能，使用这种系统就能让你我在几十分钟里就学会用我们的舌头“看”东西。

这是第二个例子，关于人体回声定位或者说人体声纳。你有两种方法可以实现：你可以弹响指，或者咂舌头。不过现在有失明人士，确实在学校里接受这样的培训，并学会解读从环境反弹回来的声波模式—这就是声纳。如果你搜索YouTube之后，就会发现有些视频讲述了一个令人称奇的孩子，他因为癌症眼球惨遭移除，虽然失去了眼球，但是通过打响指，他可以四处走动而不撞到任何东西，他能滑滑板，他可以将篮球投入篮框中。注意这是一个没有眼球的孩子。

第三个例子是触觉皮带，如果你把它戴在腰上，蜂鸣器会响，而且总是朝向北时发出嗡嗡声。它可以使人拥有方向感，用类似于鸟类感知方向的方式。

还有一些离奇的例子：

如果你在青蛙身上插入第三只眼，青蛙也能学会使用那只眼睛。因此，这将会非常令人惊奇。如果你能把几乎任何传感器接入到大脑中，大脑的学习算法就能找出学习数据的方法，并处理这些数据。从某种意义上来说，如果我们能找出大脑的学习算法，然后在计算机上执行大脑学习算法或与之相似的算法，也许这将是我们向人工智能迈进做出的最好的尝试。人工智能的梦想就是：有一天能制造出真正的智能机器。

神经网络可能为我们打开一扇进入遥远的人工智能梦的窗户，但我在这节课中讲授神经网络的原因，主要是对于现代机器学习应用。它是最有效的技术方法。因此在接下来的一些课程中，我们将开始深入到神经网络的技术细节。

8.3 模型表示1(Model Representation 1)

在这个视频中我想开始向你介绍我们该如何表示神经网络换句话说当我们在 运用神经网络时我们该如何表示我们的假设或模型 神经网络是在模仿大脑中的神经元或者神经网络时发明的因此要解释如何表示模型假设我们先来看单个神经元在大脑中是什么样的

我们的大脑中充满了这样的神经元 神经元是大脑中的细胞其中有两点值得我们注意一是神经元有像这样的细胞主体

二是神经元有一定数量的输入神经这些输入神经叫做树突 可以把它们想象成输入电线它们接收来自其他神经元的信息

神经元的输出神经叫做轴突 这些输出神经是用来 给其他神经元传递信号或者传送信息的

简而言之 神经元是一个计算单元它从输入神经接受一定数目的信息并做一些计算然后将结果通过它的轴突传送到其他节点或者大脑中的其他神经元

下面是一组神经元的示意图神经元利用微弱的电流进行沟通这些弱电流也称作动作电位 其实就是一些微弱的电流

所以如果 神经元想要传递一个消息 它就会就通过它的轴突 发送一段微弱电流给其他神经元这就是轴突 这里是一条连接到输入神经 或者连接另一个神经元树突的神经 接下来这个神经元接收这条消息做一些计算它有可能会反过来将在轴突上的自己的消息传给其他神经元

这就是所有人类思考的模型： 我们的神经元把自己的收到的消息进行计算,并向其他神经元传递消息

顺便说一下这也是我们的感觉和肌肉运转的原理如果你想活动一块肌肉就会触发一个神经元给你的肌肉发送脉冲 并引起你的肌肉收缩如果一些感官比如说眼睛想要给大脑传递一个消息那么它就像这样发送电脉冲给大脑的

在一个神经网络里或者说在我们在电脑上实现的人工神经网络里我们将使用一个非常简单的模型来模拟神经元的工作我们将神经元模拟成一个逻辑单元 当我画一个这样的黄色圆圈时你应该把它想象成作用类似于神经元的东西然后我们通过它的树突或者说它的输入神经传递给它一些信息然后神经元做一些计算并通过它的输出神经即它的轴突输出计算结果

当我画一个像这样的图表时就表示对h(x)的计算 h(x)等于1除以1加e的负θ转置乘以x 通常 x和θ 是我们的参数向量这是一个简单的模型甚至说是一个过于简单的模拟神经元的模型它被输入 x1 x2和 x3 然后输出一些类似这样的结果

当我绘制一个神经网络时通常我只绘制输入节点 x1 x2 x3 但有时也可以这样做：我增加一个额外的节点 x0 这个 x0 节点有时也被称作偏置单位 或偏置神经元 但因为 x0 总是等于1 所以有时候我会画出它有时我不会画出这取决于它是否对例子有利

现在来讨论最后一个关于神经网络的术语有时我们会说这是一个神经元 一个有s型函数或者逻辑函数作为激励函数的 人工神经元 在神经网络术语中 激励函数只是对类似非线性函数g(z)的另一个术语称呼 g(z)等于 1除以1加e的-z次方

到目前为止我一直称θ为模型的参数 以后大概会继续将这个术语与 “参数”相对应而不是与在关于神经网络的文献里有时你可能会看到人们谈论一个模型的权重 权重其实和模型的参数是一样的东西 在视频中我会继续使用“参数”这个术语但有时你可能听到别人用“权重”这个术语

以上的黄色小圈，代表一个单一的神经元

神经网络其实就是下图这些不同的神经元组合在一起的集合

具体来说这里是我们的输入单元 x1 x2和 x3 再说一次有时也可以画上额外的节点 x0 我把 x0 画在这了里有 3个神经元我在里面写了a(2)1 a(2)2 和a(2)3 然后再次说明我们可以在这里添加一个a0 和一个额外的偏度单元 它的值永远是1 最后我们在最后一层有第三个节点正是这第三个节点输出 假设函数h(x)计算的结果

再多说一点关于神经网络的术语网络中的第一层也被称为输入层 因为我们在这一层输入我们的特征项 x1 x2 x3 最后一层也称为输出层 因为这一层的神经元—我指的这个输出假设的最终计算结果中间的两层也被称作隐藏层 隐藏层不是一个很合适的术语但是直觉上我们知道在监督学习中你能看到输入也能看到正确的输出而隐藏层的值你在训练集里是看不到的它的值不是 x 也不是y 所以我们叫它隐藏层

稍后我们会看到神经网络可以有不止一个的隐藏层但在这个例子中我们有一个输入层—第1层一个隐藏层— 第2层和一个输出层—第3层但实际上任何 非输入层或非输出层的层就被称为隐藏层

接下来我希望你们明白神经网络究竟在做什么让我们逐步分析这个图表所呈现的计算步骤

为了解释这个神经网络具体的计算步骤这里还有些记号要解释我要使用a上标(j)下标i表示 第j层的第i个神经元或单元 具体来说这里 a上标(2) 下标1 表示第2层的第一个激励即隐藏层的第一个激励所谓激励(activation) 是指 由一个具体神经元读入计算并输出的值

此外我们的神经网络被这些矩阵参数化 θ上标(j) 它将成为一个波矩阵 控制着比如说从第一层到第二层或者第二层到第三层的作用

所以这就是这张图所表示的计算

这里的第一个隐藏单元是这样计算它的值的： a(2)1等于 s函数（或者说s激励函数，也叫做逻辑激励函数）作用在这种输入的线性组合上的结果

第二个隐藏单元等于s函数作用在这个线性组合上的值同样对于第三个隐藏的单元它是通过这个公式计算的

在这里我们有三个输入单元和三个隐藏单元

这样一来参数矩阵控制了我们来自三个输入单元三个隐藏单元的映射因此θ1的维数将变成3 θ1将变成一个 3乘4维的矩阵 因为x0是偏度单元，它的值永远是1,所以变成3X4,不要a(2)0是因为它在计算下一层的时候用到,这一层不需要计算它

更一般的如果一个网络在第j 层有sj个单元在j+1层有 sj+1个单元那么矩阵θ(j) 即控制第j层到第j+1层映射的矩阵的维度为s(j+1) * (sj+1) 这里要搞清楚这个是s下标j+1 而这个是 s下标j 然后整体加上1 整体加1 明白了吗所以θ(j)的维度是 s(j+1)行 sj+1列这里sj+1 当中的1 不是下标的一部分

以上我们讨论了三个隐藏单位是怎么计算它们的值

最后在输出层我们还有一个单元它计算 h(x) 这个也可以写成a(3)1 就等于后面这块

注意到我这里写了个上标2 因为θ上标2 是参数矩阵，或着说是权重矩阵。该矩阵控制从第二层（即隐藏层的3个单位）到第三层的一个单元（即输出单元）的映射

总之以上我们展示了像这样一张图是怎样定义一个人工神经网络的这个神经网络定义了函数h：从输入 x 到输出y的映射我将这些假设的参数记为大写的θ 这样一来不同的θ 对应了不同的假设所以我们有不同的函数比如说从 x到y的映射以上就是我们怎么从数学上定义神经网络的假设

在接下来的视频中我想要做的就是让你对这些假设的作用有更深入的理解并且讲解几个例子然后谈谈如何有效的计算它们【教育无边界字幕组】翻译人员不详

小小的总结–模型表示

为了构建神经网络模型，我们需要首先思考大脑中的神经网络是怎样的？每一个神经元都可以被认为是一个处理单元/神经核（processing unit/Nucleus），它含有许多输入/树突（input/Dendrite），并且有一个输出/轴突（output/Axon）。神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。

下面是一组神经元的示意图，神经元利用微弱的电流进行沟通。这些弱电流也称作动作电位，其实就是一些微弱的电流。所以如果神经元想要传递一个消息，它就会就通过它的轴突，发送一段微弱电流给其他神经元，这就是轴突。

这里是一条连接到输入神经，或者连接另一个神经元树突的神经，接下来这个神经元接收这条消息，做一些计算，它有可能会反过来将在轴突上的自己的消息传给其他神经元。这就是所有人类思考的模型：我们的神经元把自己的收到的消息进行计算，并向其他神经元传递消息。这也是我们的感觉和肌肉运转的原理。如果你想活动一块肌肉，就会触发一个神经元给你的肌肉发送脉冲，并引起你的肌肉收缩。如果一些感官：比如说眼睛想要给大脑传递一个消息，那么它就像这样发送电脉冲给大脑的。

神经网络模型建立在很多神经元之上，每一个神经元又是一个个学习模型。这些神经元（也叫激活单元，activation unit）采纳一些特征作为输出，并且根据本身的模型提供一个输出。下图是一个以逻辑回归模型作为自身学习模型的神经元示例，在神经网络中，参数又可被成为权重（weight）。

我们设计出了类似于神经元的神经网络，效果如下：

其中$x_1$, $x_2$, $x_3$是输入单元（input units），我们将原始数据输入给它们。

$a_1$, $a_2$, $a_3$是中间单元，它们负责将数据进行处理，然后呈递到下一层。

最后是输出单元，它负责计算${h_\theta}\left( x \right)$。

神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。下图为一个3层的神经网络，第一层成为输入层（Input Layer），最后一层称为输出层（Output Layer），中间一层成为隐藏层（Hidden Layers）。我们为每一层都增加一个偏差单位（bias unit）：

下面引入一些标记法来帮助描述模型：

$a_{i}^{\left( j \right)}$ 代表第$j$ 层的第 $i$ 个激活单元。${{\theta }^{\left( j \right)}}$代表从第 $j$ 层映射到第$ j+1$ 层时的权重的矩阵，例如${{\theta }^{\left( 1 \right)}}$代表从第一层映射到第二层的权重的矩阵。其尺寸为：以第 $j+1$层的激活单元数量为行数，以第 $j$ 层的激活单元数加一为列数的矩阵。例如：上图所示的神经网络中${{\theta }^{\left( 1 \right)}}$的尺寸为 3*4。

对于上图所示的模型，激活单元和输出分别表达为：

$a_{1}^{(2)}=g(\Theta _{10}^{(1)}{{x}_{0}}+\Theta _{11}^{(1)}{{x}_{1}}+\Theta _{12}^{(1)}{{x}_{2}}+\Theta _{13}^{(1)}{{x}_{3}})$ $a_{2}^{(2)}=g(\Theta _{20}^{(1)}{{x}_{0}}+\Theta _{21}^{(1)}{{x}_{1}}+\Theta _{22}^{(1)}{{x}_{2}}+\Theta _{23}^{(1)}{{x}_{3}})$ $a_{3}^{(2)}=g(\Theta _{30}^{(1)}{{x}_{0}}+\Theta _{31}^{(1)}{{x}_{1}}+\Theta _{32}^{(1)}{{x}_{2}}+\Theta _{33}^{(1)}{{x}_{3}})$ ${{h}_{\Theta }}(x)=g(\Theta _{10}^{(2)}a_{0}^{(2)}+\Theta _{11}^{(2)}a_{1}^{(2)}+\Theta _{12}^{(2)}a_{2}^{(2)}+\Theta _{13}^{(2)}a_{3}^{(2)})$

上面进行的讨论中只是将特征矩阵中的一行（一个训练实例）喂给了神经网络，我们需要将整个训练集都喂给我们的神经网络算法来学习模型。

我们可以知道：每一个$a$都是由上一层所有的$x$和每一个$x$所对应的决定的。

（我们把这样从左到右的算法称为前向传播算法( FORWARD PROPAGATION )）

把$x$, $\theta$, $a$ 分别用矩阵表示：

我们可以得到$\theta \cdot X=a$ 。

8.4 模型表示2( Model Representation II )

在前面的视频里我们解释了怎样用数学来定义或者计算神经网络算法的假设

在这段视频中我想告诉你如何高效地进行计算并展示一个向量化的实现方法

更重要的是我想让你们明白为什么这样表示神经网络是一个好的方法并且明白它们怎样帮助我们学习复杂的非线性假设

以这个神经网络为例以前我们说计算出假设输出的步骤是左边的这些方程通过这些方程我们计算出三个隐藏单元的激励值 然后利用这些值来计算假设h(x)的最终输出

接下来我要定义一些额外的项因此这里我画线的项把它定义为z上标(2) 下标1 这样一来就有了 a(2)1 这个项等于 g(z(2)1) 另外顺便提一下这些上标2 的意思是在z(2)和a(2)中括号中的 2表示这些值与第二层相关即与神经网络中的隐藏层有关

接下来这里的项我将同样定义为 z(2)2 最后这个我画线的项我把它定义为z(2)3 这样我们有a(2)3 等于 g(z(2)3) 所以这些z值都是一个线性组合是输入值x0 x1 x2 x3的加权线性组合它将会进入一个特定的神经元

现在看一下这一堆数字你可能会注意到这块对应了矩阵向量运算类似于矩阵向量乘法 x1乘以向量x 观察到一点我们就能将 神经网络的计算向量化了

具体而言我们定义特征向量x 为x0 x1 x2 x3组成的向量其中x0 仍然等于1 并定义 z(2)为这些z值组成的向量即z(2)1 z(2)2 z(2)3 注意在这里 z(2) 是一个三维向量

下面我们可以这样向量化a(2)1 a(2)2 a(2)3的计算我们只用两个步骤 z(2)等于θ(1) 乘以x 这样就有了向量z(2) 然后 a(2)等于 g(z(2)) 需要明白这里的z(2)是三维向量并且 a(2)也是一个三维向量因此这里的激励g 将s函数逐元素作用于 z(2)中的每个元素

顺便说一下为了让我们的符号和接下来的工作相一致在输入层虽然我们有输入x 但我们还可以把这些想成是第一层的激励所以我可以定义a(1) 等于x 因此 a(1)就是一个向量了我就可以把这里的x 替换成a(1) z(2)就等于θ(1)乘以a(1) 这都是通过在输入层定义a(1)做到的

现在就我目前所写的我得到了 a1 a2 a3的值并且我应该把上标加上去但我还需要一个值我同样需要这个a(2)0 它对应于隐藏层的得到这个输出的偏置单元 当然这里也有一个偏置单元我只是没有画出来

注意这额外的偏置单元接下来我们要额外加上一个a0 上标(2) 它等于1 这样一来现在 a(2)就是一个四维的特征向量因为我们刚添加了这个额外的 a0 它等于 1并且它是隐藏层的一个偏置单元

最后为了计算假设的实际输出值我们只需要计算 z(3) z(3)等于这里我画线的项这个方框里的项就是z(3)

z(3)等于θ(2) 乘以a(2) 最后假设输出为h(x) 它等于a(3) a(3)是输出层唯一的单元它是一个实数你可以写成a(3) 或a(3)1 这就是g(z(3)) 这个计算h(x)的过程也称为前向传播(forward propagation)

这样命名是因为我们从输入层的激励开始然后进行前向传播给隐藏层并计算隐藏层的激励然后我们继续前向传播并计算输出层的激励

这个从输入层到隐藏层再到输出层依次计算激励的过程叫前向传播

我们刚刚得到了这一过程的向量化实现方法如果你使用右边这些公式实现它就会得到一个有效的计算h(x) 的方法

这种前向传播的角度也可以帮助我们了解神经网络的原理和它为什么能够帮助我们学习非线性假设

看一下这个神经网络我会暂时盖住图片的左边部分如果你观察图中剩下的部分这看起来很像逻辑回归在逻辑回归中我们用这个节点即这个逻辑回归单元来预测 h(x)的值具体来说假设输出的 h(x)将等于s型激励函数 g(θ0 xa0 +θ1xa1 +θ2xa2 +θ3xa3) 其中 a1 a2 a3 由这三个单元给出

为了和我之前的定义保持一致需要在这里还有这些地方都填上上标(2) 同样还要加上这些下标1 因为我只有一个输出单元但如果你只观察蓝色的部分这看起来非常像标准的 逻辑回归模型 不同之处在于我现在用的是大写的θ 而不是小写的θ 这样做完我们只得到了逻辑回归

但是逻辑回归的输入特征值是通过隐藏层计算的神经网络所做的就像逻辑回归但是它不是使用 x1 x2 x3作为输入特征而是用a1 a2 a3作为新的输入特征同样我们需要把
上标加上来和之前的记号保持一致

有趣的是特征项a1 a2 a3它们是作为输入的函数来学习的具体来说就是从第一层映射到第二层的函数这个函数由其他一组参数θ(1)决定所以在神经网络中它没有用输入特征x1 x2 x3 来训练逻辑回归而是自己训练逻辑回归的输入 a1 a2 a3 可以想象如果在θ1中选择不同的参数有时可以学习到一些很有趣和复杂的特征就可以得到一个更好的假设比使用原始输入 x1 x2或x3时得到的假设更好你也可以选择多项式项 x1 x2 x3等作为输入项但这个算法可以 灵活地快速学习任意的特征项

我觉得现在描述的这个例子有点高端所以我不知道你是否能理解这个具有更复杂特征项的神经网络但是如果你没理解在接下来的两个视频里我会讲解一个具体的例子它描述了怎样用神经网络如何利用这个隐藏层计算更复杂的特征并输入到最后的输出层以及为什么这样就可以学习更复杂的假设所以如果我现在讲的你没理解请继续观看接下来的两个视频希望它们提供的例子能够让你更加理解神经网络但有一点你还可以用其他类型的图来表示神经网络神经网络中神经元相连接的方式称为神经网络的架构 所以说 架构是指 不同的神经元是如何相互连接的 这里有一个不同的神经网络架构的例子

你可以意识到这个第二层是如何工作的在这里我们有三个隐藏单元它们根据输入层计算一个复杂的函数然后第三层可以将第二层训练出的特征项作为输入并在第三层计算一些更复杂的函数这样在你到达输出层之前即第四层就可以利用第三层训练出的更复杂的特征项作为输入以此得到非常有趣的非线性假设

顺便说一下在这样的网络里第一层被称为输入层第四层仍然是我们的输出层这个网络有两个隐藏层所以任何一个不是输入层或输出层的都被称为隐藏层

我希望从这个视频中你已经大致理解 前向传播在神经网络里的工作原理：从输入层的激励开始向前传播到第一隐藏层然后传播到第二隐藏层最终到达输出层并且你也知道了如何向量化这些计算

我发现这个视频里我讲了某些层是如何计算前面层的复杂特征项我意识到这可能仍然有点抽象显得比较高端所以我将在接下来的两个视频中讨论具体的例子它描述了怎样用神经网络来计算输入的非线性函数希望能使你更好的理解从神经网络中得到的复杂非线性假设

小小的总结–模型表示2

( FORWARD PROPAGATION )
相对于使用循环来编码，利用向量化的方法会使得计算更为简便。以上面的神经网络为例，试着计算第二层的值：

我们令 ${{z}^{\left( 2 \right)}}={{\theta }^{\left( 1 \right)}}x$，则 ${{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}})$ ，计算后添加 $a_{0}^{\left( 2 \right)}=1$。计算输出的值为：

我们令 ${{z}^{\left( 3 \right)}}={{\theta }^{\left( 2 \right)}}{{a}^{\left( 2 \right)}}$，则 $h_\theta(x)={{a}^{\left( 3 \right)}}=g({{z}^{\left( 3 \right)}})$。这只是针对训练集中一个训练实例所进行的计算。如果我们要对整个训练集进行计算，我们需要将训练集特征矩阵进行转置，使得同一个实例的特征都在同一列里。即：

${{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}}\times {{X}^{T}} $ ${{a}^{\left( 2 \right)}}=g({{z}^{\left( 2 \right)}})$

为了更好了了解Neuron Networks的工作原理，我们先把左半部分遮住：

右半部分其实就是以$a_0, a_1, a_2, a_3$, 按照Logistic Regression的方式输出$h_\theta(x)$：

其实神经网络就像是logistic regression，只不过我们把logistic regression中的输入向量$\left[ x_1\sim {x_3} \right]$ 变成了中间层的$\left[ a_1^{(2)}\sim a_3^{(2)} \right]$, 即: $h_\theta(x)=g\left( \Theta_0^{\left( 2 \right)}a_0^{\left( 2 \right)}+\Theta_1^{\left( 2 \right)}a_1^{\left( 2 \right)}+\Theta_{2}^{\left( 2 \right)}a_{2}^{\left( 2 \right)}+\Theta_{3}^{\left( 2 \right)}a_{3}^{\left( 2 \right)} \right)$
我们可以把$a_0, a_1, a_2, a_3$看成更为高级的特征值，也就是$x_0, x_1, x_2, x_3$的进化体，并且它们是由 $x$与$\theta$决定的，因为是梯度下降的，所以$a$是变化的，并且变得越来越厉害，所以这些更高级的特征值远比仅仅将 $x$次方厉害，也能更好的预测新数据。
这就是神经网络相比于逻辑回归和线性回归的优势。

8.5 特征和直观理解1(Examples and Intuitions I)

在接下来两节视频中我要通过讲解一个具体的例子来解释神经网络是如何计算关于输入的复杂的非线性函数 希望这个例子可以让你了解为什么神经网络可以用来学习复杂的非线性假设

考虑下面的问题我们有二进制的输入特征 x1 x2 要么取0 要么取1 所以x1和x2只能有两种取值

在这个例子中我只画出了两个正样本和两个负样本但你可以认为这是一个更复杂的学习问题的简化版本在这个复杂问题中我们可能在右上角有一堆正样本（红色叉叉） 在左下方有一堆用圆圈表示的负样本

我们想要学习一种非线性的决策边界来区分正负样本那么神经网络是如何做到的呢？

为了描述方便我不用右边这个例子我用左边这个例子这样更容易说明具体来讲这里需要计算的是 目标函数y 等于x1异或x2 或者 y也可以等于 x1异或非x2 其中异或非表示 x1异或x2后取反 X1异或X2 为真当且仅当这两个值 X1或者X2中有且仅有一个为1 如果我用XNOR作为例子比用NOT作为例子结果会好一些但这两个其实是相同的这就意味着在x1 异或x2后再取反即 当它们同时为真或者同时为假的时候我们将获得 y等于1的结果

如果它们中仅有一个为真 y则为0

我们想要知道是否能找到一个神经网络模型来拟合这种训练集

为了建立能拟合XNOR运算 的神经网络我们先讲解一个稍微简单的神经网络它拟合了“且运算”

假设我们有输入x1和 x2 并且都是二进制即要么为0要么为1 我们的目标函数y正如你所知道的等于x1且x2 这是一个逻辑与

那么我们怎样得到一个具有单个神经元的神经网络来计算这个逻辑与呢为了做到这一点我也需要画出偏置单元 即这个里面有个+1的单元

现在让我给这个网络分配一些权重或参数我在图上写出这些参数这里是-30 正20 正20 即我给 x0前面的系数赋值为-30. 这个正1会作为这个单元的值关于20的参数值且x1乘以+20 以及x2乘以+20 都是这个单元的输入

所以我的假设ħ(x) 等于 g(-30 + 20x1 + 20x2) 在图上画出这些参数和权重是很方便很直观的其实在这幅神经网络图中这个-30 其实是θ(1)10 这个是 θ(1)11 这是 θ(1)12 但把它想成这些边的权重会更容易理解

让我们来看看这个小神经元是怎样计算的回忆一下 s型激励函数g(z)看起来是这样的它从0开始光滑上升穿过0.5 渐进到1.

我们给出一些坐标如果横轴值 z等于4.6 则 S形函数等于0.99 这是非常接近 1的并且由于对称性如果z为-4.6 S形函数等于0.01 非常接近0

让我们来看看四种可能的输入值 x1和x2的四种可能输入看看我们的假设在各种情况下的输出如果X1和X2均为 0 那么你看看这个如果 x1和x2都等于为0 则假设会输出g(-30) g(-30)在图的很左边的地方非常接近于0

如果x1等于0且 x2等于1 那么此公式等于 g关于 -10取值也在很左边的位置所以也是非常接近0 这个也是g(-10) 也就是说如果x1 等于1并且 x2等于0 这就是-30加20等于-10 最后如果 x1等于1 x2等于 1 那么这等于 -30 +20 +20 所以这是取+10时非常接近1

如果你看看在这一列这就是逻辑“与”的计算结果所以这里得到的h h关于x取值近似等于x1和x2的与运算的值换句话说假设输出 1 当且仅当 x1 x2 都等于1 所以通过写出这张真值表我们就弄清楚了神经网络计算出的逻辑函数

这里的神经网络实现了或函数的功能接下来我告诉你是怎么看出来的如果你把假设写出来会发现它等于 g关于-10 +20x1 +20x2的取值如果把这些值都填上会发现这是g(-10) 约等于0 这是g(10) 约等于1 这个也约等于1

这些数字本质上就是逻辑或运算得到的值

所以我希望通过这个例子你现在明白了神经网络里单个的神经元在计算如AND和OR逻辑运算时是怎样发挥作用的在接下来的视频中我们将继续讲解一个更复杂的例子我们将告诉你一个多层的神经网络怎样被用于计算更复杂的函数如 XOR 函数或 XNOR 函数

小小的总结–特征和直观理解I

从本质上讲，神经网络能够通过学习得出其自身的一系列特征。在普通的逻辑回归中，我们被限制为使用数据中的原始特征$x_1,x_2,...,{{x}_{n}}$，我们虽然可以使用一些二项式项来组合这些特征，但是我们仍然受到这些原始特征的限制。在神经网络中，原始特征只是输入层，在我们上面三层的神经网络例子中，第三层也就是输出层做出的预测利用的是第二层的特征，而非输入层中的原始特征，我们可以认为第二层中的特征是神经网络通过学习后自己得出的一系列用于预测输出变量的新特征。

神经网络中，单层神经元（无中间层）的计算可用来表示逻辑运算，比如逻辑与(AND)、逻辑或(OR)。

举例说明：逻辑与(AND)；下图中左半部分是神经网络的设计与output层表达式，右边上部分是sigmod函数，下半部分是真值表。

我们可以用这样的一个神经网络表示AND 函数：

其中$\theta_0 = -30, \theta_1 = 20, \theta_2 = 20$
我们的输出函数$h_\theta(x)$即为：$h_\Theta(x)=g\left( -30+20x_1+20x_2 \right)$

我们知道$g(x)$的图像是：

所以我们有：$h_\Theta(x) \approx \text{x}_1 \text{AND} \, \text{x}_2$

所以我们的：$h_\Theta(x) $

这就是AND函数。

接下来再介绍一个OR函数：

OR与AND整体一样，区别只在于的取值不同。

8.6 样本和直观理解II(Examples and Intuitions II)

在这段视频中我想通过例子来向大家展示一个神经网络是怎样计算非线性的假设函数

在上一段视频中我们学习了怎样运用神经网络来计算x1和x2的与运算 以及x1和x2的或运算 其中x1和x2都是二进制数也就是说它们的值只能为0或1 同时我们也学习了怎样进行逻辑非运算也就是计算 “非x1” 我先写出这个神经网络中相连接的各权值这里我们只有一个输入量x1 在这里我们也加上了表示偏差的单位元 +1 如果我将输入单元和两个权数相连也就是+10和-20 则可用以下假设方程来计算 h(x)=g(10-20x1) 其中g是一个S型函数

那么当x1等于0时计算出假设函数 g(10-20*0) 也就是g(10) 这个值近似的等于1 而当x等于1时计算出的假设函数则变成 g(-10) 也就是约等于0 如果你观察这两个值你会发现这实际上计算的就是“非x1”函数

所以要计算逻辑非运算 总体思路是在你希望取非运算的变量前面放上一个绝对值大的负数作为权值 因此如果放一个-20 那么和x1相乘很显然最终的结果就得到了对x1进行非运算的效果

另外我再给出一个例子计算这样一个函数 (非x1)与(非x2) 我希望大家思考一下自己动手算一算你大概应该知道至少应该在x1和x2前面放一个绝对值比较大的负数作为权值 不过还有一种可行的方法是建立一个神经网络来计算用只有一个输出单元的神经网络 没问题吧？因此这个看起来很长的逻辑函数 “(非x1)与(非x2)”的值将等于1 当且仅当 x1等于x2等于0 所以这是个逻辑函数这里是非x1 也就是说x1必为0 然后是非x2 这表示x2也必为0 因此这个逻辑函数等于1 当且仅当 x1和x2的值都为0时成立

现在你应该也清楚了怎样建立一个小规模的神经网络来计算这个逻辑函数的值

把以上我们介绍的这三个部分内容放在一起 “x1与x2”与运算的网络以及计算 “(非x1)与(非x2)”的网络还有最后一个是 “x1或x2”的或运算网络把这三个网络放在一起我们就应该能计算 “x1 XNOR x2” 也就是同或门运算

提醒一下如果这是x1 x2 那么我们想要计算的这个函数在这里和这里是负样本而在这里和这里函数有正样本值那么很显然为了分隔开正样本和负样本我们需要一个非线性的判别边界

这里我们用以下这个网络来解决取输入单元 +1 x1和x2 建立第一个隐藏层单元我们称其为a(2)1 因为它是第一个隐藏单元接下来我要从红色的网络也就是”x1与x2”这个网络复制出权值也就是-30 20 20 接下来我再建立第二个隐藏单元我们称之为a(2)2 它是第二层的第二个隐藏单元然后再从中间的青色网络中复制出权值这样我们就有了 10 -20 -20 这样三个权值

因此我们来看一下真值表中的值对于红色的这个网络我们知道是x1和x2的与运算所以这里的值大概等于0 0 0 1 这取决于x1和x2的具体取值

对于a (2)2 也就是青色的网络我们知道这是“(非x1)与(非x2)”的运算那么对于x1和x2的四种取值其结果将为 1 0 0 0

最后建立输出节点也就是输出单元 a(3)1 这也是等于输出值h(x) 然后复制一个或运算网络同时我需要一个+1作为偏差单元将其添加进来然后从绿色的网络中复制出所有的权值也就是-10 20 20

我们之前已经知道这是一个或运算函数那么我们继续看真值表的值第一行的值是0和1的或运算其结果为1 然后是0和0的或运算其结果为0 0和0的或运算结果还是0 1和0的或运算其结果为1

因此 h(x)的值等于1 当x1和x2都为0 或者x1和x2都为1的时候成立具体来说在这两种情况时 h(x)输出1 在另两种情况时 h(x)输出0 那么对于这样一个神经网络有一个输入层一个隐藏层和一个输出层我们最终得到了计算XNOR函数的非线性判别边界

更一般的理解是在输入层中我们只有原始输入值然后我们建立了一个隐藏层用来计算稍微复杂一些的输入量的函数如图所示这些都是稍微复杂一些的函数然后通过添加另一个层我们得到了一个更复杂一点的函数这就是关于神经网络可以计算较复杂函数的某种直观解释

我们知道当层数很多的时候你有一个相对简单的输入量的函数作为第二层而第三层可以建立在此基础上来计算更加复杂一些的函数然后再下一层又可以计算再复杂一些的函数

在这段视频的最后我想给大家展示一个有趣的例子这是一个神经网络通过运用更深的层数来计算更加复杂函数的例子我将要展示的这段视频来源于我的一个好朋友阳乐昆(Yann LeCun) Yann是一名教授供职于纽约大学他也是神经网络研究早期的奠基者之一也是这一领域的大牛他的很多理论和想法现在都已经被应用于各种各样的产品和应用中遍布于全世界所以我想向大家展示一段他早期工作中的视频这段视频中他使用神经网络的算法进行手写数字的辨识

你也许记得在这门课刚开始的时候我说过关于神经网络的一个早期成就就是应用神经网络读取邮政编码以帮助我们进行邮递那么这便是其中一种尝试这就是为了解决这个问题而尝试采用的一种算法

在视频中这个区域是输入区域表示的是手写字符它们将被传递给神经网络这一列数字表示通过该网络第一个隐藏层运算后特征量的可视化结果因此通过第一个隐藏层可视化结果显示的是探测出的不同特征不同边缘和边线

这是下一个隐藏层的可视化结果似乎很难看出怎样理解更深的隐藏层以及下一个隐藏层计算的可视化结果可能你如果要想看出到底在进行怎样的运算还是比较困难的最终远远超出了第一个隐藏层的效果但不管怎样最终这些学习后的特征量将被送到最后一层也就是输出层并且在最后作为结果显示出来最终预测到的结果就是这个神经网络辨识出的手写数字的值下面我们来观看这段视频

我希望你喜欢这段视频也希望这段视频能给你一些直观的感受关于神经网络可以学习的较为复杂一些的函数在这个过程中它使用的输入是不同的图像或者说就是一些原始的像素点第一层计算出一些特征然后下一层再计算出一些稍复杂的特征然后是更复杂的特征然后这些特征实际上被最终传递给最后一层逻辑回归分类器上使其准确地预测出神经网络“看”到的数字

小小的总结–特征和直观理解II

二元逻辑运算符（BINARY LOGICAL OPERATORS）当输入特征为布尔值（0或1）时，我们可以用一个单一的激活层可以作为二元逻辑运算符，为了表示不同的运算符，我们只需要选择不同的权重即可。

下图的神经元（三个权重分别为-30，20，20）可以被视为作用同于逻辑与（AND）：

下图的神经元（三个权重分别为-10，20，20）可以被视为作用等同于逻辑或（OR）：

下图的神经元（两个权重分别为 10，-20）可以被视为作用等同于逻辑非（NOT）：

我们可以利用神经元来组合成更为复杂的神经网络以实现更复杂的运算。例如我们要实现XNOR 功能（输入的两个值必须一样，均为1或均为0），即 $\text{XNOR}=( \text{x}_1\, \text{AND}\, \text{x}_2 )\, \text{OR} \left( \left( \text{NOT}\, \text{x}_1 \right) \text{AND} \left( \text{NOT}\, \text{x}_2 \right) \right)$
首先构造一个能表达$\left( \text{NOT}\, \text{x}_1 \right) \text{AND} \left( \text{NOT}\, \text{x}_2 \right)$部分的神经元：

然后将表示 AND 的神经元和表示$\left( \text{NOT}\, \text{x}_1 \right) \text{AND} \left( \text{NOT}\, \text{x}_2 \right)$的神经元以及表示 OR 的神经元进行组合：

我们就得到了一个能实现 $\text{XNOR}$ 运算符功能的神经网络。

按这种方法我们可以逐渐构造出越来越复杂的函数，也能得到更加厉害的特征值。

这就是神经网络的厉害之处。

8.7 多类分类(Multiclass Classification)

在这段视频中我想和大家谈谈如何用神经网络做多类别分类 在多类别分类中通常有不止一个类别需要我们去区分在上一段视频最后我们提到了有关手写数字辨识的问题这实际上正是一个多类别分类的问题因为辨识数字从0到9 正好是10个类别因此你也许已经想问究竟应该怎样处理这个问题

我们处理多类别分类的方法实际上是基于一对多神经网络算法 而延伸出来的

让我们来看这样一个例子还是有关计算机视觉的例子就像我之前介绍过的识别汽车的例子但与之不同的是现在我们希望处理的是四个类别的分类问题给出一幅图片我们需要确定图上是什么是一个行人一辆汽车还是一辆摩托车亦或是一辆卡车对于这样一个问题我们的做法是建立一个具有四个输出单元的神经网络也就是说此时神经网络的输出是一个四维向量

因此现在的输出需要用一个向量来表示这个向量中有四个元素而我们要做的是对第一个输出元素进行分辨图上是不是一个行人然后对第二个元素分辨它是不是一辆汽车同样第三个元素是不是摩托车第四个元素是不是一辆卡车因此当图片上是一个行人时我们希望这个神经网络输出1 0 0 0 当图片是一辆轿车时我们希望输出是 0 1 0 0 当图片是一辆摩托车时我们希望结果是0 0 1 0 以此类推

所以这和我们介绍逻辑回归时讨论过的一对多方法其实是一样的只不过现在我们有四个逻辑回归的分类器而我们需要对四个分类器中每一个都分别进行识别分类因此重新整理一下这页讲义这是我们的神经网络结构有四个输出单元

这是针对不同的图片我们h(x)的表达式此时我们需要用如下的方法来表示训练集在这个例子中当我们要表征一个具有行人汽车摩托车和卡车这样四个不同图片作为元素的训练集时我们应该怎么做呢之前我们把标签写作一个整数用y来表示 1 2 3 4 现在我们不这样表示y 而是用以下的方法来代表y 那就是 y(i) 表示1 0 0 0 或者0 1 0 0 或者0 0 1 0 或者0 0 0 1 根据相对于的图片x(i)来决定这样我们的训练样本将成为 x(i) y(i) 这一对数其中 x(i)表示我们已知的四种物体图像中的一个而y(i)是这四个向量中的某一个