第二章单变量线性回归(Linear Regression with One Variable)

发布日期: 2018-11-14

文章字数: 7.8k

阅读时长: 27 分

阅读次数:

Gradient Descennt

我们已经定义了代价函数J 而在这段视频中我想向你们介绍梯度下降这种算法 这种算法可以将代价函数$J$最小化 梯度下降是很常用的算法它不仅被用在线性回归上它实际上被广泛的应用于机器学习领域中的众多领域在后面课程中为了解决其他线性回归问题我们也也将使用梯度下降法最小化其他函数 而不仅仅是只用在本节课的代价函数$J$ 因此在这个视频中我将讲解用梯度下降算法最小化函数 $J$在后面的视频中我们还会将此算法应用于具体的代价函数J中来解决线性回归问题下面是问题概述

在这里我们有一个函数 $J(\theta_0, \theta_1)$ 也许这是一个线性回归的代价函数也许是一些其他函数要使其最小化我们需要用一个算法来最小化函数$J(\theta_0, \theta_1)$ 就像刚才说的事实证明梯度下降算法可应用于多种多样的函数求解所以想象一下如果你有一个函数$J(\theta_0, \theta_1,…,\theta_n)$ 你希望可以通过最小化 $\theta_0$到$\theta_n$来最小化此代价函数$J(\theta_0, \theta_1,…,\theta_n)$ 用n个$\theta$是为了证明梯度下降算法可以解决更一般的问题但为了简洁起见为了简化符号在接下来的视频中我只用两个参数
下面就是关于梯度下降的构想我们要做的是我们要开始对$\theta_0$和$\theta_1$ 进行一些初步猜测(也就是初始化) 它们到底是什么其实并不重要但通常的选择是将 $\theta_0$设为0 将$\theta_1$也设为0 将它们都初始化为0 我们在梯度下降算法中要做的就是不停地一点点地改变 $\theta_0$和$\theta_1$ 试图通过这种改变使得$J(\theta_0, \theta_1)$变小直到我们找到 $J$ 的最小值或许是局部最小值

_1526560718_677839576_1539945526_1526560718_677839576.png

让我们通过一些图片来看看梯度下降法是如何工作的我在试图让这个函数值最小注意坐标轴 $\theta_0$和$\theta_1$在水平轴上而函数 $J$在垂直坐标轴上图形表面高度则是 $J$的值

_1526560743_1565219096_1539945560_1526560743_1565219096.png

我们希望最小化这个函数所以我们从 $\theta_0$ 和 $\theta_1$ 的某个值出发所以想象一下 对 $\theta_0$和$\theta_1$赋以某个初值也就是对应于从这个函数表面上的某个起始点出发 对吧所以不管 $\theta_0$和$\theta_1$的取值是多少我将它们初始化为0 但有时你也可把它初始化为其他值 现在我希望大家把这个图像想象为一座山想像类似这样的景色公园中有两座山想象一下你正站立在山的这一点上站立在你想象的公园这座红色山上在梯度下降算法中我们要做的就是旋转360度看看我们的周围并问自己我要在某个方向上用小碎步尽快下山这些小碎步需要朝什么方向?
如果我们站在山坡上的这一点你看一下周围你会发现最佳的下山方向 大约是那个方向好的现在你在山上的新起点上

_1526560798_666068590_1539945598_1526560798_666068590.png

你再看看周围然后再一次想想我应该从什么方向迈着小碎步下山? 然后你按照自己的判断又迈出一步往那个方向走了一步

_1526560828_2138414653_1539945611_1526560828_2138414653.png

然后重复上面的步骤 从这个新的点你环顾四周并决定从什么方向将会最快下山 然后又迈进了一小步又是一小步并依此类推直到你接近这里 直到局部最低点的位置

_1526560836_1542066151_1539945624_1526560836_1542066151.png

此外这种下降有一个有趣的特点第一次我们是从这个点开始进行梯度下降算法的是吧在这一点上从这里开始现在想象一下我们在刚才的右边一些的位置对梯度下降进行初始化想象我们在右边高一些的这个点开始使用梯度下降如果你重复上述步骤停留在该点并环顾四周往下降最快的方向迈出一小步然后环顾四周又迈出一步然后如此往复如果你从右边不远处开始梯度下降算法将会带你来到这个右边的第二个局部最优处

_1526560853_1272028194_1539945641_1526560853_1272028194.png

如果从刚才的第一个点出发你会得到这个局部最优解但如果你的起始点偏移了一些起始点的位置略有不同你会得到一个非常不同的局部最优解这就是梯度下降算法的一个特点 我们会在之后继续探讨这个问题

_1526560865_949036406_1539945662_1526560865_949036406.png

好的这是我们从图中得到的直观感受看看这个图这是梯度下降算法的定义我们将会反复做这些直到收敛

_1526560876_637224678_1539945680_1526560876_637224678.png

我们要更新参数 $\theta_j$ 方法是用 $\theta_j$ 减去 $\alpha$乘以这一部分
- := 表示赋值 这是一个赋值运算符
- 等号 = :写出a=b 那么这是一个判断为真的声明如果我写 a=b 就是在断言 a的值是等于 b的值的 这是声明声明 a的值与b的值相同
- α :一个数字被称为学习速率
  - 什么是$\alpha$呢? 在梯度下降算法中它控制了 我们下山时会迈出多大的步子 因此如果 $\alpha$值很大那么相应的梯度下降过程中我们会试图用大步子下山如果$\alpha$值很小那么我们会迈着很小的小碎步下山关于如何设置 $\alpha$的值等内容在之后的课程中我会回到这里并且详细说明 $\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)$
- 最后是公式的这一部分$\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)$ 这是一个微分项 我现在不想谈论它但我会推导出这个微分项并告诉你到底这要如何计算你们中有人大概比较熟悉微积分但即使你不熟悉微积分也不用担心我会告诉你对这一项你最后需要做什么
现在在梯度下降算法中还有一个更微妙的问题在梯度下降中我们要更新 $\theta_0$ 和 $\theta_1$ 当 j=0 和 j=1 时会产生更新所以你将更新 $\theta_0$ 和 $\theta_1$ 实现梯度下降算法的微妙之处是在这个表达式中如果你要更新这个等式你需要同时更新 $\theta_0$ 和 $\theta_1$ 实现方法是 你应该计算公式右边的部分通过那一部分计算出$\theta_0$ 和 $\theta_1$的值然后同时更新 $\theta_0$ 和 $\theta_1$ 让我进一步阐述这个过程
在梯度下降算法中下图是正确实现同时更新的方法我要设 temp0等于这些设temp1等于那些所以首先计算出公式右边这一部分然后将计算出的结果一起存入 temp0和 temp1 之中然后同时更新 θ0和θ1 因为这才是正确的实现方法

_1526561065_1055239768_1539945798_1526561065_1055239768.png

与此相反下面是不正确的实现方法因为它没有做到同步更新 在这种不正确的实现方法中我们计算 temp0 然后我们更新 $\theta_0$ 然后我们计算 temp1 然后我们将 temp1 赋给θ1 右边的方法和左边的区别是让我们看这里就是这一步如果这个时候你已经更新了θ0 那么你会使用 θ0的新的值来计算这个微分项所以由于你已经在这个公式中使用了新的 θ0的值那么这会产生一个与左边不同的 temp1的值所以右边并不是正确地实现梯度下降的做法

_1526561083_1129145205_1539945818_1526561083_1129145205.png

我不打算解释为什么你需要同时更新 同时更新是梯度下降中的一种常用方法 我们之后会讲到 实际上同步更新是更自然的实现方法 当人们谈到梯度下降时他们的意思就是同步更新 如果用非同步更新去实现算法代码可能也会正确工作但是右边的方法并不是人们所指的那个梯度下降算法而是具有不同性质的其他算法由于各种原因这其中会表现出微小的差别你应该做的是在梯度下降中真正实现同时更新这些就是梯度下降算法的梗概

_1526561100_393689345_1539945882_1526561100_393689345.png

在接下来的视频中我们要进入这个微分项的细节之中我已经写了出来但没有真正定义如果你已经修过微积分课程如果你熟悉偏导数和导数这其实就是这个微分项如果你不熟悉微积分不用担心即使你之前没有看过微积分或者没有接触过偏导数在接下来的视频中你会得到一切你需要知道的如何计算这个微分项的知识下一个视频中希望我们能够给出实现梯度下降算法的所有知识

小小的总结–Gradient Descennt(梯度下降)

在假设函数中，我们需要估计假设函数中的参数。这就是梯度下降的地方。
x轴表示$\theta_0$，y轴表示$\theta_1$，z轴上表示$J(\theta_0,\theta_1)$代价函数。我们图上的点是给定$\theta_0$和$\theta_1$ 代价函数的值。

_1526561137_131391682_1539945928_1526561137_131391682.png

当我们的代价函数处于图的底部时，即当其值是局部最小时，表示我们已经找到正确的$\theta_0$和$\theta_1$。红色箭头显示图表中的最小点。
我们这样做的方式是通过获取代价函数的导数（函数的切线）。切线的斜率是该点的导数，它会给我们一个走向的方向。我们逐步降低成本函数的下降速度。每一步的大小由参数α决定，称为学习率。
例如，上图中每个“星号”之间的距离代表由我们的参数α确定的一个步骤。 α越小，步长越小，α越大，步长越大。步进的方向取决于$J(\theta_0,\theta_1)$ 的偏导数。根据图表的起始位置，可能会出现不同的点。上面的图片向我们展示了两个不同的起点，最终在两个不同的地方。
梯度下降算法是：
重复，直到收敛：
j = 0,1代表特征索引号。
在每次迭代j中，应同时更新参数$\theta_1,\theta_2,…\theta_n$。在计算第j次迭代之前更新特定参数会导致错误的实现。

_1526561190_832177929_1539945992_1526561190_832177929.png

Gradient Descent Intuition

在之前的视频中我们给出了一个数学上关于梯度下降的定义本次视频我们更深入研究一下更直观地感受一下这个算法是做什么的以及梯度下降算法的更新过程有什么意义这是我们上次视频中看到的梯度下降算法提醒一下这个参数 α 术语称为学习速率 它控制我们以多大的幅度更新这个参数θj. 第二部分是导数项而我在这个视频中要做的就是给你一个更直观的认识这两部分有什么用以及为什么当把这两部分放一起时整个更新过程是有意义的

_1526561218_1102222000_1539946039_1526561218_1102222000.png

为了更好地让你明白我要做是用一个稍微简单的例子比如我们想最小化的那个函数只有一个参数的情形所以 假如我们有一个代价函数J 只有一个参数 θ1 就像我们前几次视频中讲的 $\theta_1$是一个实数对吧？那么我们可以画出一维的曲线看起来很简单让我们试着去理解为什么梯度下降法会在这个函数上起作用

_1526561252_904671270_1539946074_1526561252_904671270.png

所以假如这是我的函数关于$\theta_1$的函数$J(\theta_1)$是一个实数对吧？现在我们已经对这个蓝色点上用于梯度下降法的$\theta_1$ 进行了初始化想象一下在我的函数图像上从那个点出发那么梯度下降要做的事情是不断更新 $\theta_1$ 等于$\theta_1$ 减$\alpha$ 倍的 $\frac{d}{d\theta_1}J(\theta_1)$ 这个项 对吧？哦顺便插一句你知道这个微分项是吧？可能你想问为什么我改变了符号之前用的是偏导数的符号如果你不知道偏导数的符号和$\frac{d}{d\theta}$之间的区别是什么不用担心从技术上讲在数学中我们称这是一个偏导数 这是一个导数这取决于函数J的参数数量但是这是一个数学上的区别就本课的目标而言可以默认为这些偏导数符号和$\frac{d}{d\theta}$是完全一样的东西不用担心是否存在任何差异我会尽量使用数学上的精确的符号但就我们的目的而言这些符号是没有区别的

_1526561410_371681908_1539946127_1526561410_371681908.png

好的那么我们来看这个方程我们要计算这个导数求导的目的基本上可以说 取红色一点的切线 就是这样一条红色的直线刚好与函数相切于这一点让我们看看这条红色直线的斜率其实这就是导数也就是说直线的斜率也就是这条刚好与函数曲线相切的这条直线这条直线的斜率正好是这个高度除以这个水平长度 现在这条线有一个正斜率也就是说它有正导数因此我得到的新的$\theta_1$ $\theta_1$更新后等于$\theta_1$减去一个正数乘以$\alpha$. $\alpha$ 也就是学习速率也是一个正数 所以我要使$\theta_1$减去一个东西所以相当于我将$\theta_1$向左移使$\theta_1$变小了

_1526561401_1069093686_1539946176_1526561401_1069093686.png

我们可以看到这么做是对的因为实际上我往这个方向移动确实让我更接近那边的最低点 所以梯度下降到目前为止似乎是在做正确的事
让我们来看看另一个例子让我们用同样的函数$J$ 同样再画出函数$J(\theta_1)$的图像而这次我们把参数初始化到左边红色这点所以$\theta_1$ 在这里同样把这点对应到曲线上现在导数项$\frac{d}{d\theta_1}J(\theta_1)$ 在这点上计算时看上去会是红色这条线的斜率这个导数是这条线的斜率但是这条线向下倾斜所以这条线具有负斜率 对吧？或者说这个函数有负导数也就意味着在那一点上有负斜率因此这个导数项小于等于零所以当我更新$\theta$时, $\theta$被更新为$\theta$减去$\alpha$乘以一个负数因此我是在用 $\theta_1$减去一个负数这意味着我实际上是在增加$\theta_1$ 对不对？因为这是减去一个负数意味着给$\theta$加上一个数这就意味着最后我实际上增加了$\theta$的值因此我们将从这里开始增加$\theta$ 似乎这也是我希望得到的也就是让我更接近最小值了

_1526561445_1568980368_1539946208_1526561445_1568980368.png

所以我希望这样很直观地给你解释了导数项的意义让我们接下来再看一看学习速率$\alpha$ 我们来研究一下它有什么用这就是我梯度下降法的更新规则就是这个等式让我们来看看如果$\alpha$ 太小或 $\alpha$ 太大会出现什么情况这第一个例子 $\alpha$太小会发生什么呢这是我的函数$J(\theta)$ 就从这里开始 如果$\alpha$太小了那么我要做的是要去用一个比较小的数乘以更新的值 所以最终它就像一个小宝宝的步伐这是一步然后从这个新的起点开始迈出另一步但是由于$\alpha$ 太小因此只能迈出另一个小碎步所以如果我的学习速率太小结果就是只能这样像小宝宝一样一点点地挪动去努力接近最低点这样就需要很多步才能到达最低点所以如果$\alpha$ 太小的话可能会很慢因为它会一点点挪动它会需要很多步才能到达全局最低点

_1526561464_253805835_1539946231_1526561464_253805835.png

那么如果$\alpha$ 太大又会怎样呢这是我的函数$J(\theta)$ 如果$\alpha$ 太大那么梯度下降法可能会越过最低点甚至可能无法收敛我的意思是比如我们从这个点开始实际上这个点已经接近最低点因此导数指向右侧但如果$\alpha$ 太大的话我会迈出很大一步也许像这样巨大的一步对吧？所以我最终迈出了一大步现在我的代价函数变得更糟因为离这个最低点越来越远现在我的导数指向左侧实际上在减小$\theta$ 但是你看如果我的学习速率过大我会移动一大步从这点一下子又到那点了对吗？如果我的学习率太大下一次迭代又移动了一大步越过一次又越过一次一次次越过最低点直到你发现实际上离最低点越来越远所以 如果$\alpha$太大它会导致无法收敛甚至发散

_1526561479_1021372496_1539946255_1526561479_1021372496.png

现在我还有一个问题这问题挺狡猾的如果我们预先把$\theta_1$ 放在一个局部的最低点 你认为下一步梯度下降法会怎样工作？所以假设你将$\theta_1$初始化在局部最低点假设这是你的$\theta_1$的初始值在这儿它已经在一个局部的最优处或局部最低点结果是局部最优点的导数将等于零 因为它是那条切线的斜率而这条线的斜率将等于零因此此导数项等于0 因此在你的梯度下降更新过程中你有一个$\theta_1$ 然后用$\theta_1$ 减$\alpha$ 乘以0来更新$\theta_1$ 所以这意味着什么这意味着你已经在局部最优点它使得$\theta_1$不再改变也就是新的$\theta_1$等于原来的$\theta_1$ 因此如果你的参数已经处于局部最低点那么梯度下降法更新其实什么都没做它不会改变参数的值 这也正是你想要的因为它使你的解始终保持在局部最优点这也解释了为什么即使学习速率$\alpha$ 保持不变时梯度下降也可以收敛到局部最低点我想说的是这个意思

_1526561493_322597671_1539946286_1526561493_322597671.png

我们来看一个例子这是代价函数$J(\theta)$ 我想找到它的最小值首先初始化我的梯度下降算法在那个品红色的点初始化如果我更新一步梯度下降也许它会带我到绿色这个点因为这个点的导数是相当陡的现在在这个绿色的点如果我再更新一步你会发现我的导数也即斜率相比于在品红点是没那么陡的对吧？因为随着我接近最低点我的导数越来越接近零所以 梯度下降一步后新的导数会变小一点点 然后我想再梯度下降一步在这个绿点我自然会用一个稍微跟刚才在那个品红点时比再小一点的一步现在到了新的点红色点更接近全局最低点了因此这点的导数会比在绿点时更小所以我再进行一步梯度下降时我的导数项是更小的 $\theta_1$更新的幅度就会更小所以你会移动更小的一步像这样 随着梯度下降法的运行你移动的幅度会自动变得越来越小直到最终移动幅度非常小你会发现已经收敛到局部极小值 所以回顾一下 在梯度下降法中当我们接近局部最低点时梯度下降法会自动采取更小的幅度 这是因为当我们接近局部最低点时很显然在局部最低时导数等于零 所以当我们接近局部最低时导数值会自动变得越来越小所以梯度下降将自动采取较小的幅度这就是梯度下降的做法所以实际上没有必要再另外减小$\alpha$ 这就是梯度下降算法

_1526561559_975182746_1539946335_1526561559_975182746.png

你可以用它来最小化最小化任何代价函数$J$ 不只是线性回归中的代价函数$J$ 在接下来的视频中我们要用代价函数$J$ 回到它的本质线性回归中的代价函数也就是我们前面得出的平方误差函数结合梯度下降法以及平方代价函数我们会得出第一个机器学习算法即线性回归算法

小小的总结–Gradient Descent Intuition

在本视频中，我们探索了使用一个参数$\theta_1$并绘制其代价函数来实现梯度下降的场景。我们的单一参数公式为：

_1526561584_1088750870_1539946381_1526561584_1088750870.png

无论 $\frac{d}{d\theta_1}J(\theta_1)$ 的斜率符号如何，$\theta_1$最终收敛到其最小值。下图显示当斜率为负值时，$\theta_1$的值增加，当为正值时，$\theta_1$的值减小。

_1526561620_33298999_1539946410_1526561620_33298999.png

在附注中，我们应该调整参数α以确保梯度下降算法在合理的时间内收敛。未能收敛或获得最小值的时间太多意味着我们的步长是错误的。

_1526561636_1697292728_1539946422_1526561636_1697292728.png

梯度下降如何以固定步长$\alpha$收敛？
收敛背后的直觉是，当我们逼近我们的凸函数的底部时，$\frac{d}{d\theta_1}J(\theta_1)$接近0。因此我们得到：

$\theta_1:=\theta_1-\alpha*0$

_1526561675_2093920258_1539946481_1526561675_2093920258.png

Gradient Descent For Linear Regression

在以前的视频中我们谈到关于梯度下降算法梯度下降是很常用的算法它不仅被用在线性回归上和线性回归模型、平方误差代价函数在这段视频中我们要 将梯度下降 和代价函数结合 在后面的视频中我们将用到此算法并将其应用于具体的拟合直线的线性回归算法里这就是我们在之前的课程里所做的工作

这是梯度下降算法 这个算法你应该很熟悉这是线性回归模型 还有线性假设和平方误差代价函数 我们将要做的就是 用梯度下降的方法来最小化平方误差代价函数 为了使梯度下降为了写这段代码我们需要的关键项是这里这个微分项

_1526561743_42538752_1539946555_1526561743_42538752.png

所以.我们需要弄清楚这个偏导数项是什么并结合这里的代价函数$J$ 的定义就是这样一个求和项代价函数就是这个误差平方项我这样做只是 把定义好的代价函数插入了这个微分式再简化一下 这等于是这一个求和项 $\theta_0+\theta_1x^{(i)}-y{(i)}$

_1526561818_666946699_1539946612_1526561818_666946699.png

实际上我们需要弄清楚这两个偏导数项是什么这两项分别是 j=0 和j=1的情况因此我们要弄清楚 $\theta_0$和 $\theta_1$ 对应的偏导数项是什么 (将上面的式子平方化开再分别对$\theta_0$和 $\theta_1$求偏导)

最终结果如下:

_1526561861_322362701_1539946651_1526561861_322362701.png

所以偏导数项从这个等式到下面的等式计算这些偏导数项需要一些多元微积分如果你掌握了微积分你可以随便自己推导这些然后你检查你的微分你实际上会得到我给出的答案但如果你不太熟悉微积分别担心你可以直接用这些已经算出来的结果你不需要掌握微积分或者别的东西来完成作业你只需要会用梯度下降就可以

_1526561892_649652808_1539951959_1526561892_649652808.png

在定义这些以后在我们算出这些微分项以后 这些微分项实际上就是代价函数J的斜率 现在可以将它们放回我们的梯度下降算法所以这就是专用于线性回归的梯度下降反复执行括号中的式子直到收敛 $\theta_0$和$\theta_1$不断被更新都是加上一个$-\frac{\alpha}{m}$ 乘上后面的求和项 所以这里这一项所以这就是我们的线性回归算法

_1526561936_996217166_1539952078_1526561936_996217166.png

这一项就是关于$\theta_0$的偏导数 在上一张幻灯片中推出的

_1526561956_1952955701_1539952499_1526561956_1952955701.png

而第二项这一项是刚刚的推导出的 关于$\theta_1$的偏导数项

_1526561971_576823992_1539952519_1526561971_576823992.png

提醒一下 执行梯度下降时有一个细节要注意就是必须要同时更新$\theta_0$和$\theta_1$
所以让我们来看看梯度下降是如何工作的我们用梯度下降解决问题的一个原因是 它更容易得到局部最优值 当我第一次解释梯度下降时我展示过这幅图

_1526562028_517004246_1539952542_1526562028_517004246.png

在表面上不断下降并且我们知道了根据你的初始化你会得到不同的局部最优解你知道.你可以结束了.在这里或这里。

_1526562040_769496498_1539952555_1526562040_769496498.png

但是 事实证明用于线性回归的代价函数总是这样一个弓形的样子

_1526562056_1050624241_1539952593_1526562056_1050624241.png

这个函数的专业术语是这是一个凸函数 我不打算在这门课中给出凸函数的定义 凸函数(convex function) 但不正式的说法是它就是一个弓形的函数因此 这个函数没有任何局部最优解只有一个全局最优解 并且无论什么时候你对这种代价函数使用线性回归梯度下降法得到的结果总是收敛到全局最优值 因为没有全局最优以外的其他局部最优点
现在让我们来看看这个算法的执行过程像往常一样这是假设函数的图还有代价函数J的图

_1526562070_1456917132_1539952610_1526562070_1456917132.png

让我们来看看如何初始化参数的值 通常来说初始化参数为零 $\theta_0$和$\theta_1$都在零 但为了展示需要在这个梯度下降的实现中我把$\theta_0$初始化为-900 $\theta_1$初始化为-0.1
这对应的假设$h(x)$ 就应该是下图左边 $h(x)=-900-0.1x$ 代价函数$J(\theta_0,\theta_1)$对应的是下图右边

_1526562104_573736577_1539952665_1526562104_573736577.png

现在如果我们进行一次梯度下降,从一点开始向左下方移动一小步,然后就得到了第二个点,可以看到,这第二点假设函数的线相对于第一点假设函数的线改变了一点点.

_1526562122_1863333386_1539952686_1526562122_1863333386.png

然后就是不断的移动代价函数的点,梯度不断下降,假设函数越来越拟合数据,直到收敛到全局最小值.这个全局最小值对应的假设函数给出了最拟合数据的解这就是梯度下降法

_1526562131_948800849_1539952693_1526562131_948800849.png

我们刚刚运行了一遍并且最终得到了房价数据的最好拟合结果现在你可以用它来预测房价了比如说假如你有个朋友他有一套房子面积1250平方英尺(约116平米) 现在你可以通过这个数据然后告诉他们也许他的房子可以卖到35万美元

最后我想再给出另一个名字实际上我们刚刚使用的算法有时也称为批量梯度下降(Batch Gradient Descent),指的是,在梯度下降的每一步中,我们都用到了所有的训练样本
在梯度下降中,在计算微分求导项时,我们需要进行求和计算,所以在每一个单独的梯度计算中,我们最终都要计算这样一个东西—这个项需要对所有m个训练样本求和.

有些同学之前可能已经学过高等线性代数你应该知道有一种计算代价函数J最小值的数值解法不需要梯度下降这种迭代算法在后面的课程中我们也会谈到这个方法它可以在不需要多步梯度下降的情况下也能解出代价函数J的最小值这是另一种称为正规方程(normal equations)的方法

小小的总结–Gradient Descent Fro Linear Regression

当具体应用于线性回归的情况时，可以导出梯度下降方程的新形式。我们可以替换我们的代价函数和我们的假设函数，并将方程修改为:

其中$m$是训练集的大小,$\theta_0$和$\theta_1$是同时更新的 $x_i,y_i$是给定训练集（数据）的值。
请注意，我们已将$\theta_j$分成$\theta_0$和$\theta_1$ 对于$\theta_1$来说,最后还有乘以一个$x_i$ 以下是对$\frac{\alpha}{\alpha\theta_j}J(\theta)$的推导:

关键点是,我们从猜测假设函数开始,然后重复应用这些梯度下降方程，我们的假设将变得越来越准确。
因此，这只是原始代价函数J的梯度下降。该方法在每个步骤中用了整个训练集中的每个示例，并称为批量梯度下降。需要注意的是，虽然梯度下降一般可以对局部最小值敏感，但我们在线性回归中提出的优化问题只有一个全局，而没有其他局部最优; 因此，梯度下降总是收敛（假设学习率α不是太大）到全局最小值。实际上，J是凸二次函数。下面是梯度下降的示例，因为它是为了最小化二次函数而运行的。