正则化

机器学习机器学习入门

发布日期: 2019-02-12

文章字数: 11.8k

阅读时长: 41 分

阅读次数:

第七章正则化(Regularization)

7.1 过拟合的问题

到现在为止你已经见识了几种不同的学习算法包括线性回归和逻辑回归它们能够有效地解决许多问题但是当将它们应用到某些特定的机器学习应用时会遇到过度拟合(over-fitting)的问题可能会导致它们效果很差
在这段视频中我将为你解释什么是过度拟合问题并且在此之后接下来的几个视频中我们将谈论一种称为正则化(regularization)的技术它可以改善或者减少过度拟合问题以使学习算法更好实现那么什么是过度拟合呢？
让我们继续使用那个用线性回归来预测房价的例子我们通过建立以住房面积为自变量的函数来预测房价我们可以对该数据做线性回归如果这么做我们也许能够获得拟合数据的这样一条直线但是这不是一个很好的模型我们看看这些数据很明显随着房子面积增大住房价格的变化趋于稳定或者越往右越平缓因此该算法没有很好拟合训练数据我们把这个问题称为欠拟合(underfitting) 这个问题的另一个术语叫做 高偏差(High bias) 这两种说法大致相似意思是它只是没有很好地拟合训练数据这个词是过去传下来的一个专业名词它的意思是如果拟合一条直线到训练数据就好像算法有一个很强的偏见或者说非常大的偏差因为该算法认为房子价格与面积仅仅线性相关尽管与该数据的事实相反尽管相反的证据被事前定义为偏差它还是接近于拟合一条直线而此法最终导致拟合数据效果很差
我们现在可以在中间加入一个二次项在这组数据中我们用二次函数来拟合它然后可以拟合出一条曲线事实证明这个拟合效果很好

另一个极端情况是如果我们拟合一个四次多项式因此在这里我们有五个参数 $\theta_0$到$\theta_4$ 这样我们可以拟合一条曲线通过我们的五个训练样本你可以得到看上去如此的一条曲线

一方面似乎对训练数据做了一个很好的拟合因为这条曲线通过了所有的训练实例但是这仍然是一条扭曲的曲线对吧？它不停上下波动因此事实上我们并不认为它是一个预测房价的好模型所以这个问题我们把他叫做 过度拟合或过拟合(overfitting) 另一个描述该问题的术语是 高方差(variance) 高方差是另一个历史上的叫法但是从第一印象上来说如果我们拟合一个高阶多项式那么这个函数能很好的拟合训练集能拟合几乎所有的训练数据这就面临可能函数太过庞大的问题变量太多同时如果我们没有足够的数据去约束这个变量过多的模型那么这就是过度拟合

在两者之间的情况叫”刚好合适” 这并不是一个真正的名词我只是把它写在这里这个二次多项式二次函数可以说是恰好拟合这些数据

概括地说过度拟合的问题将会在变量过多的时候发生这种时候训练出的方程总能很好的拟合训练数据所以你的代价函数实际上可能非常接近于0 或者就是0 但是这样的曲线它千方百计的拟合于训练数据这样导致它无法泛化到新的数据样本中以至于无法预测新样本价格在这里术语”泛化“ 指的是一个假设模型能够应用到新样本的能力 新样本数据是没有出现在训练集中的房子

在这张幻灯片上我们看到了线性回归情况下的过拟合类似的方法同样可以应用到逻辑回归这里是一个以x1与x2为变量的逻辑回归

我们可以做的就是用这样一个简单的假设模型来拟合逻辑回归和以前一样字母$g$代表S型函数 如果这样做你会得到一个假设模型这个假设模型是一条直线它直接分开了正样本和负样本但这个模型并不能够很好的拟合数据因此这又是一个欠拟合的例子或者说假设模型具有高偏差

相比之下如果如果再加入一些变量比如这些二次项那么你可以得到一个判定边界像这样这样就很好的拟合了数据这很可能是训练集的最好拟合结果

最后在另一种极端情况下如果你用高阶多项式来拟合数据你加入了很多高阶项那么逻辑回归可能发生自身扭曲它千方百计的形成这样一个判定边界来拟合你的训练数据以至于成为一条扭曲的曲线使其能够拟合每一个训练集中的样本而且如果x1和x2 能够预测癌症你知道癌症是一种恶性肿瘤同时肿瘤也可能是良性确实这个假设模型不是一个很好的预测因此这又是一个过拟合例子是一个有高方差的假设模型并且不能够很好泛化到新样本

在今后课程中我们会讲到调试和诊断诊断出导致学习算法故障的东西我们告诉你如何用专门的工具来识别过拟合和可能发生的欠拟合但是现在让我们谈谈过拟合的问题我们怎么样解决呢
在前面的例子中当我们使用一维或二维数据时我们可以通过绘出假设模型的图像来研究问题所在再选择合适的多项式来拟合数据因此以之前的房屋价格为例我们可以绘制假设模型的图像就能看到模型的曲线非常扭曲并通过所有样本房价我们可以通过绘制这样的图形来选择合适的多项式阶次因此绘制假设模型曲线可以作为决定多项式阶次的一种方法

但是这并不是总是有用的而且事实上更多的时候我们会遇到有很多变量的假设模型并且这不仅仅是选择多项式阶次的问题事实上当我们有这么多的特征变量这也使得绘图变得更难并且更难使其可视化因此并不能通过这种方法决定保留哪些特征变量

具体地说如果我们试图预测房价同时又拥有这么多特征变量这些变量看上去都很有用但是如果我们有 过多的变量同时只有非常少的训练数据就会出现过度拟合的问题
为了解决过度拟合有两个办法来解决问题 第一个办法是要尽量减少选取变量的数量 具体而言我们可以人工检查变量的条目并以此决定哪些变量更为重要然后决定保留哪些特征变量哪些应该舍弃
在今后的课程中我们会提到模型选择算法 这种算法是为了自动选择采用哪些特征变量自动舍弃不需要的变量这种减少特征变量的做法是非常有效的并且可以减少过拟合的发生当我们今后讲到模型选择时我们将深入探讨这个问题但是其缺点是舍弃一部分特征变量你也舍弃了问题中的一些信息例如也许所有的特征变量对于预测房价都是有用的我们实际上并不想舍弃一些信息或者舍弃这些特征变量

第二个选择我们将在接下来的视频中讨论就是正则化regularization 正则化中我们将保留所有的特征变量但是减少参数 $\theta_j$ 的大小这个方法非常有效
当我们有很多特征变量时其中每一个变量都能对预测产生一点影响 y的值正如我们在房价的例子中看到的那样在那里我们可以有很多特征变量其中每一个变量都是有用的因此我们不希望把它们删掉这就导致了正则化概念的发生

我知道这些东西你们现在可能还听不懂但是在接下来的视频中我们将开始详细讲述怎样应用正则化和什么叫做正则化均值然后我们将开始讲解怎样使用正则化怎样使学习算法正常工作并避免过拟合

小小的总结–接下来是别人的笔记

到现在为止，我们已经学习了几种不同的学习算法，包括线性回归和逻辑回归，它们能够有效地解决许多问题，但是当将它们应用到某些特定的机器学习应用时，会遇到过度拟合(over-fitting)的问题，可能会导致它们效果很差。

在这段视频中，我将为你解释什么是过度拟合问题，并且在此之后接下来的几个视频中，我们将谈论一种称为正则化(regularization)的技术，它可以改善或者减少过度拟合问题。

如果我们有非常多的特征，我们通过学习得到的假设可能能够非常好地适应训练集（代价函数可能几乎为0），但是可能会不能推广到新的数据。

下图是一个回归问题的例子：

第一个模型是一个线性模型，欠拟合，不能很好地适应我们的训练集,我们把这个问题称为欠拟合(underfitting)或高偏差(high bias)；第三个模型是一个四次方的模型，过于强调拟合原始数据，而丢失了算法的本质：预测新数据。我们可以看出，若给出一个新的值使之预测，它将表现的很差，是过拟合(overfitting)或高方差(variance)，虽然能非常好地适应我们的训练集但在新输入变量进行预测时可能会效果不好；而中间的模型似乎最合适。

分类问题中也存在这样的问题：

就以多项式理解，$x$ 的次数越高，拟合的越好，但相应的预测的能力就可能变差。

问题是，如果我们发现了过拟合问题，应该如何处理？

丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如PCA）
正则化。保留所有的特征，但是减少参数$\theta_j$的大小（magnitude）。

7.2 代价函数

在这段视频中传达给你一个直观的感受告诉你正规化是如何进行的而且我们还要写出我们使用正规化时需要使用的代价函数根据我们幻灯片上的这些例子我想我可以给你一个直观的感受但是一个更好的让你自己去理解正规化如何工作的方法是你自己亲自去实现它并且看看它是如何工作的如果在这节课后你进行一些适当的练习你就有机会亲自体验一下正规化到底是怎么工作的那么这里就是一些直观解释
在前面的视频中我们看到了如果说我们要用一个二次函数来拟合这些数据它给了我们一个对数据很好的拟合然而如果我们用一个更高次的多项式去拟合我们最终可能得到一个曲线能非常好地拟合训练集但是这真的不是一个好的结果它过度拟合了数据因此一般性并不是很好

让我们考虑下面的假设我们想要加上惩罚项从而使参数 $\theta_3$ 和 $\theta_4$ 足够的小

这里我的意思就是这是我们的优化目标或者客观的说这就是我们需要优化的问题我们需要尽量减少代价函数的均方误差对于这个函数我们对它进行一些添加一些项加上 1000 乘以 $\theta_3$ 的平方再加上 1000 乘以 $\theta_4$ 的平方 1000 只是我随便写的某个较大的数字而已

现在如果我们要最小化这个函数为了使这个新的代价函数最小化我们要让 $\theta_3$ 和 $\theta_4$ 尽可能小对吧？因为如果你有 1000 乘以 $\theta_3$ 这个新的代价函数将会是很大的所以当我们最小化这个新的函数时我们将使 $\theta_3$ 的值接近于0 $\theta_4$ 的值也接近于0 就像我们忽略了这两个值一样

如果我们做到这一点如果 $\theta_3$ 和 $\theta_4$ 接近0 那么我们将得到一个近似的二次函数所以我们最终恰当地拟合了数据你知道二次函数加上一些项这些很小的项贡献很小因为 $\theta_3$ $\theta_4$ 它们是非常接近于0的

所以我们最终得到了实际上很好的一个二次函数因为这是一个更好的假设在这个具体的例子中我们看到了惩罚这两个大的参数值的效果更一般地这里给出了正规化背后的思路
这种思路就是如果我们的参数值对应一个较小值的话就是说参数值比较小那么往往我们会得到一个形式更简单的假设所以我们最后一个例子中我们惩罚的只是 $\theta_3$ 和 $\theta_4$ 使这两个值均接近于零我们得到了一个更简单的假设也即这个假设大抵上是一个二次函数但更一般地说如果我们就像这样惩罚的其它参数通常我们可以把它们都想成是得到一个更简单的假设因为你知道当这些参数越接近这个例子时假设的结果越接近一个二次函数但更一般地可以表明这些参数的值越小通常对应于越光滑的函数也就是更加简单的函数因此就不易发生过拟合的问题

我知道为什么要所有的部分参数变小的这些原因为什么越小的参数对应于一个简单的假设我知道这些原因对你来说现在不一定完全理解但现在解释起来确实比较困难除非你自己实现一下自己亲自运行了这部分但是我希望这个例子中使 $\theta_3$ 和 $\theta_4$ 很小并且这样做能给我们一个更加简单的假设我希望这个例子有助于解释原因至少给了我们一些直观感受为什么这应该是这样的
来让我们看看具体的例子对于房屋价格预测我们可能有上百种特征我们谈到了一些可能的特征比如说 x1 是房屋的尺寸 x2 是卧室的数目 x3 是房屋的层数等等那么我们可能就有一百个特征跟前面的多项式例子不同我们是不知道的对吧我们不知道 θ3 θ4 是高阶多项式的项所以如果我们有一个袋子如果我们有一百个特征在这个袋子里我们是很难提前选出那些关联度更小的特征的也就是说如果我们有一百或一百零一个参数我们不知道挑选哪一个我们并不知道如何选择参数如何缩小参数的数目

因此在正规化里我们要做的事情就是把我们的代价函数这里就是线性回归的代价函数接下来我来修改这个代价函数从而 缩小我所有的参数值 因为你知道我不知道是哪个哪一个或两个要去缩小所以我就修改我的代价函数在这后面添加一项就像我们在方括号里的这项当我添加一个额外的正则化项的时候我们收缩了每个参数并且因此我们会使我们所有的参数 θ1 θ2 θ3 直到 θ100 的值变小

顺便说一下按照惯例来讲我们从第一个这里开始所以我实际上没有去惩罚 $\theta_0$ 因此 $\theta_0$ 的值是大的这就是一个约定 从1到 n 的求和 而不是从0到 n 的求和但其实在实践中这只会有非常小的差异无论你是否包括这项就是 $\theta_0$这项实际上结果只有非常小的差异但是按照惯例通常情况下我们还是只从 $\theta_1$ 到 $\theta_{100}$ 进行正规化
这里我们写下来我们的正规化优化目标

我们的正规化后的代价函数就是这样的 $J(\theta)$ 这个项右边的这项就是一个正则化项并且 $\lambda$ 在这里我们称做正规化参数 $\lambda$ 要做的就是控制在两个不同的目标中的一个平衡关系 第一个目标第一个需要抓住的目标就是我们想要训练 使假设更好地拟合训练数据 我们希望假设能够很好的适应训练集而第二个目标是 我们想要保持参数值较小 这就是第二项的目标通过正则化目标函数这就是 $\lambda$ 这个正则化参数需要控制的它会这两者之间的平衡目标就是平衡拟合训练的目的和保持参数值较小的目的从而来保持假设的形式相对简单来避免过度的拟合

对于我们的房屋价格预测来说这个例子尽管我们之前有我们已经用非常高的高阶多项式来拟合我们将会得到一个非常弯曲和复杂的曲线函数就像这个如果你还是用高阶多项式拟合就是用这里所有的多项式特征来拟合的话但现在我们不这样了你只需要确保使用了正规化目标的方法那么你就可以得到实际上是一个曲线但这个曲线不是一个真正的二次函数而是更加的流畅和简单也许就像这条紫红色的曲线一样那么你知道的这样就得到了对于这个数据更好的假设

再一次说明下我了解这部分有点难以明白为什么加上参数的影响可以具有这种效果但如果你亲自实现了正规化你将能够看到这种影响的最直观的感受
在正规化线性回归中如果正规化参数值被设定为非常大那么将会发生什么呢？我们将会非常大地惩罚参数$\theta_1$ $\theta_2$ $\theta_3$ $\theta_4$ 也就是说如果我们的假设是底下的这个

如果我们最终惩罚 $\theta_1$ $\theta_2$ $\theta_3$ $\theta_4$ 在一个非常大的程度那么我们会使所有这些参数接近于零的对不对？ $\theta_1$ 将接近零 $\theta_2$ 将接近零 $\theta_3$ 和$\theta_4$ 最终也会接近于零如果我们这么做那么就是我们的假设中相当于去掉了这些项并且使我们只是留下了一个简单的假设这个假设只能表明那就是房屋价格就等于 $\theta_0$ 的值

那就是类似于拟合了一条水平直线对于数据来说这就是一个 欠拟合 (underfitting) 这种情况下这一假设它是条失败的直线对于训练集来说这只是一条平滑直线它没有任何趋势它不会去趋向大部分训练样本的任何值这句话的另一种方式来表达就是这种假设有过于强烈的”偏见” 或者过高的偏差 (bais) 认为预测的价格只是等于 $\theta_0$ 并且尽管我们的数据集选择去拟合一条扁平的直线仅仅是一条扁平的水平线我画得不好对于数据来说这只是一条水平线

因此为了使正则化运作良好我们应当注意一些方面应该去选择一个不错的正则化参数 $\lambda$ 并且当我们以后讲到多重选择时在后面的课程中我们将讨论一种方法一系列的方法来自动选择正则化参数 $\lambda$ 所以这就是高度正则化的思路回顾一下代价函数为了使用正则化在接下来的两段视频中让我们把这些概念应用到到线性回归和逻辑回归中去那么我们就可以让他们避免过度拟合了

小小的总结–代价函数

上面的回归问题中如果我们的模型是：

${h_\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+{\theta_{3}}{x_{3}}+{\theta_{4}}{x_{4}}$

我们可以从之前的事例中看出，正是那些高次项导致了过拟合的产生，所以如果我们能让这些高次项的系数接近于0的话，我们就能很好的拟合了。
所以我们要做的就是在一定程度上减小这些参数$\theta$ 的值，这就是正则化的基本方法。我们决定要减少${\theta_{3}}$和${\theta_{4}}$的大小，我们要做的便是修改代价函数，在其中${\theta_{3}}$和${\theta_{4}}$ 设置一点惩罚。这样做的话，我们在尝试最小化代价时也需要将这个惩罚纳入考虑中，并最终导致选择较小一些的${\theta_{3}}$和${\theta_{4}}$。

修改后的代价函数如下：$\underset{\theta }{\mathop{\min }}\,\frac{1}{2m}[\sum\limits_{i=1}^{m}{{{\left( {{h}_{\theta }}\left( {{x}^{(i)}} \right)-{{y}^{(i)}} \right)}^{2}}+1000\theta _{3}^{2}+10000\theta _{4}^{2}]}$

通过这样的代价函数选择出的${\theta_{3}}$和${\theta_{4}}$ 对预测结果的影响就比之前要小许多。假如我们有非常多的特征，我们并不知道其中哪些特征我们要惩罚，我们将对所有的特征进行惩罚，并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的能防止过拟合问题的假设：$J\left( \theta \right)=\frac{1}{2m}[\sum\limits_{i=1}^{m}{{{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta_{j}^{2}}]}$

其中$\lambda$又称为正则化参数（Regularization Parameter）。注：根据惯例，我们不对${\theta_{0}}$ 进行惩罚。经过正则化处理的模型与原模型的可能对比如下图所示：

如果选择的正则化参数λ过大，则会把所有的参数都最小化了，导致模型变成 ${h_\theta}\left( x \right)={\theta_{0}}$，也就是上图中红色直线所示的情况，造成欠拟合。那为什么增加的一项$\lambda =\sum\limits_{j=1}^{n}{\theta_j^{2}}$ 可以使$\theta$的值减小呢？
因为如果我们令 $\lambda$ 的值很大的话，为了使Cost Function 尽可能的小，所有的 $\theta$ 的值（不包括${\theta_{0}}$）都会在一定程度上减小。 但若λ的值太大了，那么$\theta$（不包括${\theta_{0}}$）都会趋近于0，这样我们所得到的只能是一条平行于$x$轴的直线。所以对于正则化，我们要取一个合理的 $\lambda$ 的值，这样才能更好的应用正则化。
回顾一下代价函数，为了使用正则化，让我们把这些概念应用到到线性回归和逻辑回归中去，那么我们就可以让他们避免过度拟合了。

7.3 正则化线性回归

对于线性回归的求解我们之前推导了两种学习算法一种基于梯度下降一种基于正规方程在这段视频中我们将继续学习这两个算法并把它们推广到正则化线性回归中去
这是我们上节课推导出的正则化线性回归的优化目标

前面的第一部分是一般线性回归的目标函数而现在我们有这个额外的正则化项其中 $\lambda$ 是正则化参数 我们想找到参数 $\theta$ 能最小化代价函数即这个正则化代价函数 $J(\theta)$

之前我们使用梯度下降求解原来没有正则项的代价函数我们用下面的算法求解常规的没有正则项的线性回归我们会如此反复更新参数 $\theta_j$ 其中 $j=0, 1, 2...n$

让我照这个把 $j=0$ 即 $\theta_0$ 的情况单独写出来我只是把 $\theta_0$ 的更新分离出来剩下的这些参数$\theta_1$, $\theta_2$ 到$\theta_n$的更新作为另一部分所以这样做其实没有什么变化对吧？这只是把 $\theta_0$的更新和 $\theta_1$ $\theta_2$ 到 $\theta_n$ 的更新分离开来我这样做的原因是你可能还记得对于正则化的线性回归
1:32
我们惩罚参数$\theta_1$ $\theta_2$…一直到 $\theta_n$ 但是我们不惩罚$\theta_0$ 所以当我们修改这个正则化线性回归的算法时我们将对 $\theta_0$ 的方式将有所不同

具体地说如果我们要对这个算法进行修改并用它求解正则化的目标函数我们需要做的是把下边的这一项做如下的修改我们要在这一项上添加一项: $\lambda$ 除以 $m$ 再乘以 $\theta_j$ 如果这样做的话那么你就有了用于最小化正则化代价函数 $J(\theta)$ 的梯度下降算法

我不打算用微积分来证明这一点但如果你看这一项方括号里的这一项如果你知道微积分应该不难证明它是 $J(\theta)$ 对 $\theta_j$ 的偏导数这里的 $J(\theta)$ 是用的新定义的形式它的定义中包含正则化项

而另一项上面的这一项我用青色的方框圈出来的这一项这也一个是偏导数是 $J(\theta)$对 $\theta_0$ 的偏导数

如果你仔细看 $\theta_j$ 的更新你会发现一些有趣的东西具体来说$\theta_j$的每次更新都是 $\theta_j$ 自己减去 $\alpha$ 乘以原来的无正则项然后还有这另外的一项这一项的大小也取决于 $\theta_j$

所以如果你把所有这些取决于 $\theta_j$ 的合在一起的话可以证明这个更新可以等价地写为如下的形式

具体来讲上面的 $\theta_j$ 对应下面的 $\theta_j$ 乘以括号里的1 而这一项是 $\frac{\lambda}{m}$ 还有一个$\alpha$ 把它们合在一起所以你最终得到 $\alpha\frac{\lambda}{m}$ 然后合在一起乘以 $\theta_j$

而这一项 $1-\alpha\frac{\lambda}{m}$ 很有意思具体来说这一项 $1-\alpha\frac{\lambda}{m}$ 这一项的值通常 是一个具体的实数而且小于1 对吧？由于 $\alpha\frac{\lambda}{m}$ 通常情况下是正的如果你的学习速率小而 $m$ 很大的话 $1-\alpha\frac{\lambda}{m}$ 这一项通常是很小的所以这里的一项一般来说将是一个比1小一点点的值所以我们可以把它想成一个像0.99一样的数字

所以对 $\theta_j$ 更新的结果我们可以看作是被替换为 $\theta_j$ 的0.99倍也就是 $\theta_j$ 乘以0.99 把 $\theta_j$ 向 0 压缩了一点点所以这使得 $\theta_j$小了一点更正式地说 $\theta_j$ 的平方更小了

另外这一项后边的第二项这实际上与我们原来的梯度下降更新完全一样跟我们加入了正则项之前一样

好的现在你应该对这个梯度下降的更新没有疑问了当我们使用正则化线性回归时我们需要做的就是在每一个被正规化的参数 $\theta_j$ 上乘以了一个比1小一点点的数字也就是把参数压缩了一点然后我们执行跟以前一样的更新

当然这仅仅是从直观上认识这个更新在做什么从数学上讲它就是带有正则化项的 $J(\theta)$ 的梯度下降算法我们在之前的幻灯片给出了定义

梯度下降只是我们拟合线性回归模型的两种算法的其中一个第二种算法是使用正规方程 我们的做法是建立这个设计矩阵 X 其中每一行对应于一个单独的训练样本然后创建了一个向量 y 是一个 m 维的向量包含了所有训练集里的标签所以 X 是一个 m × (n+1) 维矩阵 y 是一个 m 维向量

为了最小化代价函数 $J$ 我们发现一个办法就是一个办法就是让 $\theta$ 等于这个式子即 X 的转置乘以 X 再对结果取逆再乘以 X 的转置乘以Y 我在这里留点空间等下再填满

这个 $\theta$ 的值其实就是最小化代价函数 $J(\theta)$ 的$\theta$值这时的代价函数J(θ)没有正则项现在如果我们用了是正则化我们想要得到最小值我们来看看应该怎么得到
推导的方法是取 $J$ 关于各个参数的偏导数并令它们等于0 然后做些数学推导你可以得到这样的一个式子它使得代价函数最小

具体的说如果你使用正则化那么公式要做如下改变括号里结尾添这样一个矩阵 0 1 1 1 等等直到最后一行所以这个东西在这里是一个矩阵它的左上角的元素是0 其余对角线元素都是1 剩下的元素也都是 0

可以举一个例子如果 n 等于2 那么这个矩阵将是一个3 × 3 矩阵更一般地情况该矩阵是一个 (n+1) × (n+1) 维的矩阵

因此 n 等于2时矩阵看起来会像这样左上角是0 然后其他对角线上是1 其余部分都是0 同样地我不打算对这些作数学推导坦白说这有点费时耗力但可以证明如果你采用新定义的 $J(\theta)$ 包含正则项的目标函数那么这个计算 $\theta$ 的式子能使你的 $J(\theta)$ 达到全局最小值
所以最后我想快速地谈一下不可逆性的问题这部分是比较高阶的内容所以这一部分还是作为选学你可以跳过去或者你也可以听听如果听不懂的话也没有关系之前当我讲正规方程的时候我们也有一段选学视频讲不可逆的问题所以这是另一个选学内容可以作为上次视频的补充可以作为上次视频的补充
现在考虑 m 即样本总数小与或等于特征数量 n 如果你的样本数量比特征数量小的话那么这个矩阵 X 转置乘以 X 将是 不可逆或奇异的(singluar) 或者用另一种说法是这个矩阵是退化(degenerate)的

如果你在 Octave 里运行它无论如何你用函数 pinv 取伪逆矩阵这样计算理论上方法是正确的但实际上你不会得到一个很好的假设尽管 Ocatve 会用 pinv 函数给你一个数值解看起来还不错但是如果你是在一个不同的编程语言中如果在 Octave 中你用 inv 来取常规逆也就是我们要对 X 转置乘以 X 取常规逆然后在这样的情况下你会发现 X 转置乘以 X 是奇异的是不可逆的即使你在不同的编程语言里计算并使用一些线性代数库试图计算这个矩阵的逆矩阵都是不可行的因为这个矩阵是不可逆的或奇异的
幸运的是正规化也为我们解决了这个问题具体地说只要正则参数是严格大于0的 实际上可以证明该矩阵 X 转置乘以 X 加上 λ 乘以这里这个矩阵可以证明这个矩阵将不是奇异的即该矩阵将是可逆的

因此使用正则化还可以照顾一些 X 转置乘以 X 不可逆的问题好的你现在知道了如何实现正则化线性回归利用它你就可以避免过度拟合即使你在一个相对较小的训练集里有很多特征这应该可以让你在很多问题上更好地运用线性回归在接下来的视频中我们将把这种正则化的想法应用到逻辑回归这样你就可以让逻辑回归也避免过度拟合并让它表现的更好

小小的总结–正则化线性回归

对于线性回归的求解，我们之前推导了两种学习算法：一种基于梯度下降，一种基于正规方程。

正则化线性回归的代价函数为：

$J\left( \theta \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{[({{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta _{j}^{2}})]}$

如果我们要使用梯度下降法令这个代价函数最小化，因为我们未对进行正则化，所以梯度下降算法将分两种情形：

对上面的算法中$j=1,2,...,n$ 时的更新式子进行调整可得：

${\theta_j}:={\theta_j}(1-a\frac{\lambda }{m})-a\frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}$

可以看出，正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的基础上令$\theta$值减少了一个额外的值。

我们同样也可以利用正规方程来求解正则化线性回归模型，方法如下所示：

图中的矩阵尺寸为$(n+1)*(n+1)$。

7.4 正则化的逻辑回归模型

针对逻辑回归问题我们在之前的课程已经学习过两种优化算法我们首先学习了使用梯度下降法来优化代价函数 $J(\theta)$ 接下来学习了更高级的优化算法这些高级优化算法需要你自己设计代价函数 $J(\theta)$ 自己计算导数在本节课中我们将展示如何改进梯度下降法和高级优化算法使其能够应用于正则化的逻辑回归接下来我们来学习其中的原理
在之前的课程中我们注意到对于逻辑回归问题有可能会出现过拟合的现象如果你使用了类似这样的高阶多项式 g 是 S 型函数具体来说最后你会得到这样的结果分类边界看起来是一个过于复杂并且十分扭曲的函数针对这个训练集这显然不是一个好的结果

通常情况下如果要解决的逻辑回归问题有很多参数并且又用了过多的多项式项这些项大部分都是没有必要的最终都可能出现过拟合的现象
这是逻辑回归问题的代价函数

为了将其修改为正则化形式我们只需要在后面增加一项加上 $\frac{\lambda}{2m}$ 再跟过去一样这个求和将 j 从1开始而不是从0开始累积 $\theta_j$的平方增加的这一项将惩罚参数 θ1, θ2 等等一直到 θn 防止这些参数取值过大

增加了这一项之后产生的效果是即使用有很多参数的高阶多项式来拟合只要使用了正则化方法约束这些参数使其取值很小你仍有可能得到一条看起来是这样的分类边界显然这条边界更合理地分开了正样本和负样本

因此在使用了正则化方法以后即使你的问题有很多参数正则化方法可以帮你避免过拟合的现象这到底是怎样实现的呢？
首先看看以前学过的梯度下降法这是我们之前得到的更新式我们利用这个式子迭代更新 $\theta_j$

这一页幻灯片看起来和上一节课的线性回归问题很像但是这里我将 $\theta_0$ 的更新公式单独写出来第一行用来更新 $\theta_0$ 第二行用来更新 $\theta_1$ 到 $\theta_n$ ,将 $\theta_0$ 单独处理

为了按照正则化代价函数的形式来修改算法接下来的推导非常类似于上一节学习过的正则化线性回归只需要将第二个式子修改成这样

我们又一次发现修改后的式子表面上看起来与上一节的线性回归问题很相似但是实质上这与我们上节学过的算法并不一样因为现在的假设 h(x) 是按照下面式子定义的

这与上一节正则化线性回归算法中的定义并不一样由于假设的不同我写下的迭代公式只是表面上看起来很像上一节学过的正则化线性回归问题中的梯度下降算法
总结一下方括号中的这一项是新的代价函数 $J(\theta)$ 关于 $\theta_j$ 的偏导数这里的 $J(\theta)$ 是我们在上一页幻灯片中定义的使用了正则化的代价函数

以上就是正则化逻辑回归问题的梯度下降算法接下来我们讨论如何在更高级的优化算法中使用同样的正则化技术提醒一下对于这些高级算法我们需要自己定义 costFuntion 函数这个函数有一个输入参数向量 theta 的内容是这样的我们的参数索引依然从0开始即 θ0 到 θn 但是由于 Octave 中向量索引是从1开始我们的参数是从 θ0 到 θn 在 Octave 里是从 theta(1) 开始标号的而 θ1 将被记为 theta(2) 以此类推直到 θn 被记为

而我们需要做的就是将这个自定义代价函数这个 costFunction 函数代入到我们之前学过的 fminunc函数中括号里面是 @costFunction 将 @costFunction 作为参数代进去等等 fminunc返回的是函数 costFunction 在无约束条件下的最小值
因此这个式子将求得代价函数的最小值因此 costFunction 函数有两个返回值第一个是 jVal 为此我们要在这里补充代码来计算代价函数 J(θ)
由于我们在这使用的是正则化逻辑回归因此代价函数 J(θ) 也相应需要改变具体来说代价函数需要增加这一正则化项因此当你在计算 J(θ) 时需要确保包含了最后这一项

另外代价函数的另一项返回值是对应的梯度导数梯度的第一个元素 gradient(1) 就等于 J(θ) 关于 θ0 的偏导数梯度的第二个元素按照这个式子计算剩余元素以此类推再次强调向量元素索引是从1开始这是因为 Octave 的向量索引就是从1开始的
再来总结一下首先看第一个公式在之前的课程中我们已经计算过它等于这个式子这个式子没有变化因为相比没有正则化的版本 J(θ) 关于 θ0 的偏导数不会改变

但是其他的公式确实有变化以 θ1 的偏导数为例在之前的课程里我们也计算过这一项它等于这个式子加上 λ 除以 m 再乘以 θ1 注意要确保这段代码编写正确建议在这里添加括号防止求和符号的作用域扩大

类似的再来看这个式子相比于之前的幻灯片这里多了额外的一项这就是正则化后的梯度计算方法

当你自己定义了 costFunction 函数并将其传递到 fminuc 或者其他类似的高级优化函数中就可以求出这个新的正则化代价函数的极小值而返回的参数值即是对应的逻辑回归问题的正则化解讲到这里你应该已经学会了解决正则化逻辑回归问题的方法

你知道吗我住在硅谷当我在硅谷晃悠时我看到许多工程师运用机器学习算法给他们公司挣来了很多金子课讲到这里大家对机器学习算法可能还只是略懂但是一旦你精通了线性回归、高级优化算法和正则化技术坦率地说你对机器学习的理解可能已经比许多工程师深入了现在你已经有了丰富的机器学习知识目测比那些硅谷工程师还厉害而那些工程师都混得还不错给他们公司挣了大钱你懂的或者用机器学习算法来做产品所以恭喜你你已经历练得差不多了已经具备足够的知识足够将这些算法用于解决实际问题所以你可以小小的骄傲一下了但是我还是有很多可以教你们的我还是有很多可以教你们的接下来的课程中我们将学习一个非常强大的非线性分类器无论是线性回归问题还是逻辑回归问题都可以构造多项式来解决但是你将逐渐发现还有更强大的非线性分类器可以用来解决多项式回归问题在下一节课我将向大家介绍它们你将学会比你现在解决问题的方法强大N倍的学习算法

小小的总结–正则化的逻辑回归模型

针对逻辑回归问题，我们在之前的课程已经学习过两种优化算法：我们首先学习了使用梯度下降法来优化代价函数$J\left( \theta \right)$，接下来学习了更高级的优化算法，这些高级优化算法需要你自己设计代价函数$J\left( \theta \right)$。自己计算导数.

同样对于逻辑回归，我们也给代价函数增加一个正则化的表达式，得到代价函数：

$J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}+\frac{\lambda }{2m}\sum\limits_{j=1}^{n}{\theta _{j}^{2}}$

Python代码：

import numpy as np

def costReg(theta, X, y, learningRate):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y, np.log(sigmoid(X*theta.T)))
    second = np.multiply((1 - y), np.log(1 - sigmoid(X*theta.T)))
    reg = (learningRate / (2 * len(X))* np.sum(np.power(theta[:,1:theta.shape[1]],2))
    return np.sum(first - second) / (len(X)) + reg

要最小化该代价函数，通过求导，得出梯度下降算法为：

注：看上去同线性回归一样，但是知道 ${h_\theta}\left( x \right)=g\left( {\theta^T}X \right)$，所以与线性回归不同。
Octave 中，我们依旧可以用 fminuc 函数来求解代价函数最小化的参数，值得注意的是参数${\theta_{0}}$的更新规则与其他情况不同。