第三章线性代数回顾(Linear Algebra Review)

线性代数

机器学习机器学习入门

发布日期: 2018-11-14

文章字数: 7.2k

阅读时长: 25 分

阅读次数:

Matrices and Vectors（矩阵和向量）

我们先复习一下线性代数的知识在这段视频中我会向大家介绍矩阵和向量的概念

矩阵是指 由数字组成的矩形阵列并写在方括号中间 例如屏幕中所示的一个矩阵先写一个左括号然后是一些数字这些数字可能是机器学习问题的特征值也可能表示其他意思不过现在不用管具体的数字然后我用右方括号将其括起来这样就得到了一个矩阵接下来看一下其他矩阵的例子依次写下1 2 3 4 5 6 因此实际上矩阵可以说是二维数组的另一个名字

_1526562400_1378345848_1539953128_1526562400_1378345848.png

另外我们还需要知道的是 矩阵的维度=矩阵的行数乘以列数 具体到这个例子看左边包括1 2 3 4共4行以及2列因此这个例子是一个 4 × 2的矩阵即行数乘以列数 4行乘2列
右边的矩阵有两行这是第一行这是第二行此外包括三列这是第一列第二列第三列因此我们把这个矩阵称为一个 2 × 3维的矩阵所以我们说这个矩阵的维度是2 × 3维

_1526562425_1017138353_1539953170_1526562425_1017138353.png

有时候大家会发现书写有些不同比如左边的矩阵写成了R4 × 2 具体而言大家会将该矩阵称作是集合R4×2的元素因此也就是说这个矩阵 R4×2代表所有4×2的矩阵的集合 而右边的这个矩阵有时候也写作一个R2×3的矩阵因此如果你看到2×3 如果你看到有些地方表达为 4×2的或者2×3的 一般都是指一个特定维度的矩阵

_1526562469_2073201965_1539953199_1526562469_2073201965.png

接下来让我们来谈谈如何表达矩阵的某个特定元素 这里我说矩阵元素而不是矩阵我的意思是矩阵的条目数也就是矩阵内部的某个数
所以标准的表达是 如果A是这个矩阵那么A下标 ij 表示的是 i j对应的那个数字意思是矩阵的第i行和第j列对应的那个数

_1526562486_126334539_1539953234_1526562486_126334539.png

例如 A11 表示的是第1行第1列所对应的那个元素所以这是第一行和第一列因此A11 就等于 1402 另一个例子A12 表示的是第一行第二列 对应的那个数所以A12 将等于191

_1526562514_858056936_1539953253_1526562514_858056936.png

我希望你不会犯下面的错误但如果你这么写的话如果你写出了A43 这应该表示的是 第四行第三列 而你知道这个矩阵没有第三列因此这是未定义的

_1526562526_1857626394_1539953574_1526562526_1857626394.png

接下来让我们来谈谈什么是向量 一个向量是一种特殊的矩阵 向量是只有一列的矩阵 所以你有一个 n×1 矩阵还记得吗 N是行数而这里的1 表示的是列数 所以 只有一列的矩阵就是我们所说的向量
因此这里是一个向量的例子比如说我有 n = 4 个元素

_1526562579_388138141_1539953600_1526562579_388138141.png

所以我们也把这个称为另一个术语是这是一个四维的向量 也就意味着 这是一个含有 4个元素的向量 而且前面我们讲矩阵的时候提到过这个符号R3×2 表示的是一个3行2列的矩阵 而对于这个向量我们也同样可以表示为集合R4 因此这个R4是指一个四维向量的集合
接下来让我们来谈谈如何引用向量的元素 我们将使用符号 yi来代表 向量y的第i个元素 所以如果这个向量是y 那么y下标i 则表示它的第i个元素 所以y1表示第一个元素 460 y2表示第二个元素 232 这是第二个元素还有y3等于 315 等等只有y1至y4是有意义的因为这定义的是一个四维向量

_1526562604_140050420_1539953644_1526562604_140050420.png

此外事实上有两种方法来表达某个向量中某个索引是这两种

_1526562615_528774851_1539953673_1526562615_528774851.png

有时候人们会使用 1-索引 有时候用0-索引 因此左边这个例子是一个1-索引向量 它的元素写作y1 y2 y3 y4 而右边这个向量是0-索引的一个例子我们的索引 从下标0开始 因此元素从y0至y3
对于很多机器学习的应用问题来说 0-索引向量为我们提供了一个更方便的符号表达 所以你通常应该做的是除非特别指定你应该默认我们使用的是1-索引法表示向量 在本课程的后面所有 关于线性代数的视频中我都将使用1-索引法表示向量
按照惯例通常在书写矩阵和向量时大多数人会使用大写字母 来表示矩阵 因此我们要使用大写字母如 A B C X 来表示矩阵 而通常我们会使用小写字母 像a b x y 来表示数字或是原始的数字或标量或向量 这是实际的使用习惯我们也经常看到 使用小写字母y 来表示向量但我们平时是用大写字母来表示矩阵

Matrices and Vectors笔记

矩阵是二维数组

_1526562640_1052555579_1539953704_1526562640_1052555579.png

上面的矩阵有四行三列，所以它是一个4 x 3的矩阵

向量是·一列和许多行·的矩阵：

_1526562653_1211280669_1539953713_1526562653_1211280669.png

所以向量是矩阵的一个子集。上述向量是一个4×1矩阵。

表示法和条款：
$A_{ij}$引用矩阵A的第i行和第j列中的元素。
具有’n’行的矢量被称为’n’维矢量。
$v_i$指矢量的第i行中的元素。
一般来说，我们所有的向量和矩阵都是1索引的。请注意，对于某些编程语言，这些数组是0索引的。
矩阵通常用大写字母表示，而向量则用小写字母表示。
“标量”表示对象是单个值，而不是矢量或矩阵。
是指一组标量实数。
是指实数的n维向量的集合。

Addition and Scalar Multiplication

在这段视频中我们要讲我们将讨论矩阵的加法和减法运算以及如何进行数和矩阵的乘法也就是标量乘法让我们从下面这个例子开始

假设有这样两个矩阵如果想对它们做求和运算 应该怎么做呢？或者说矩阵的加法到底是如何进行的？答案是如果你想将两个矩阵相加你只需要将这两个矩阵的每一个元素都逐个相加 因此两个矩阵相加所得到的结果就是一个新的矩阵它的第一个元素是1和4相加的结果因此我们得到5 接下来是第二个元素用2和2相加因此得到4 然后是3加0得到3 以此类推这里我用不同颜色区别一下接下来右边这一列元素就是0.5 10和2

_1526563239_390601298_1539953757_1526563239_390601298.png

这里大家不难发现 只有相同维度的两个矩阵才能相加 对于这个例子而言一個3 x 2的矩陣也就是说矩阵的行数为3 列数是2 因此是3行2列第二个矩阵也是一个3行2列的矩阵因此这两个矩阵相加的结果也是一个3行2列的矩阵所以你只能将相同维度的矩阵进行相加运算同时所得到的结果将会是一个新的矩阵 这个矩阵与相加的两个矩阵维度相同
反过来如果你想将这样两个矩阵相加这是一个3行2列的矩阵行数为3 列数为2 而这一个是2行2列的矩阵那么由于这两个矩阵维度是不相同的这就出现错误了所以我们不能将它们相加也就是说 这两个矩阵的和是没有意义的 这就是矩阵的加法运算

_1526563246_1151303969_1539953785_1526563246_1151303969.png

接下来我们讨论矩阵和标量的乘法运算 这里所说的标量 可能是一个复杂的结构或者只是一个简单的数字或者说实数 标量在这里指的就是实数 如果我们用数字3来和这个矩阵相乘那么结果是显而易见的你只需要将矩阵中的所有元素都和3相乘每一个都逐一与3相乘因此 1和3相乘结果是3 2和3相乘结果是6 最后3乘以3得9 我再换一下颜色 0乘以3得0 3乘以5得15 最后3乘以1得3 这样得到的这个矩阵就是左边这个矩阵和3相乘的结果我们再次注意到这是一个3行2列的矩阵得到的结果矩阵维度也是相同的也就是说这两个矩阵都是3行2列这也是3行2列

_1526563253_1190942378_1539953799_1526563253_1190942378.png

另外你也可以写成另一种方式这里是3和这个矩阵相乘你也可以把这个矩阵写在前面把左边这个矩阵照抄过来我们也可以用这个矩阵乘以3 也就是说 3乘以这个矩阵和这个矩阵乘以3 结果都是一回事都是中间的这个矩阵

_1526563264_1347157564_1539953811_1526563264_1347157564.png

你也可以用矩阵除以一个数那么我们可以看到用这个矩阵除以4 实际上就是用四分之一来和这个矩阵相乘 4 0 6 3 不难发现相乘的结果是 1/4和4相乘为1 1/4和0相乘得0 1/4乘以6 结果是3/2 6/4也就是3/2 最后1/4乘以3得3/4 这样我们就得到了这个矩阵除以4的结果结果就是是右边这个矩阵

_1526563275_475609234_1539953825_1526563275_475609234.png

最后我们来看一个稍微复杂一点的例子我们可以把所有这些运算结合起来在这个运算中需要用3来乘以这个向量然后加上一个向量再减去另一个向量除以3的结果让我们先来整理一下这几项运算首先第一个运算很明显这是标量乘法的例子因为这里是用3来乘以一个矩阵然后这一项很显然这是另一个标量乘法或者可以叫标量除法其实也就是1/3乘以这个矩阵因此如果我们先考虑这两项运算

_1526563285_884588442_1539953837_1526563285_884588442.png

那么我们将得到的是我们看一下 3乘以这个矩阵结果是3 12 6 然后和中间的矩阵相加也就是0 0 5 最后再减去1 0 2/3 同样地为了便于理解我们再来梳理一下这几项这里的这个加号表明这是一个矩阵加法对吧？当然这里是向量别忘了向量是特殊的矩阵对吧？或者你也可以称之为向量加法运算同样这里的减号表明这是一个矩阵减法运算但由于这是一个n行1列的矩阵实际上是3行1列因此这个矩阵实际上是也一个向量一个列向量因此也可以把它称作向量的减法运算 明白了吗

_1526563297_1736936881_1539953857_1526563297_1736936881.png

最后再整理一下最终的结果依然是一个向量向量的第一个元素是3+0-1 就是3-1 也就是2 第二个元素是12+0-0 也就是12 最后第三个元素 6+5-(2/3) 也就是11-(2/3) 结果是10又三分之一关闭右括号我们得到了最终的结果这是一个3行1列的矩阵或者也可以说是一个维度为3的向量这就是这个运算式的计算结果

_1526563308_1386235624_1539953868_1526563308_1386235624.png

所以你学会了矩阵或向量的加减运算以及矩阵或向量跟标量或者说实数的乘法运算到目前为止我只介绍了如何进行矩阵或向量与数的乘法运算在下一讲中我们将讨论一个更有趣的话题那就是如何进行两个矩阵的乘法运算
加法和标量乘法笔记

_1526563322_945561965_1539953878_1526563322_945561965.png

_1526563328_710017541_1539953883_1526563328_710017541.png

_1526563335_879312404_1539953887_1526563335_879312404.png

_1526563343_57921380_1539953892_1526563343_57921380.png

Matrix Vector Multiplication

在本节课的视频中讨论如何将两个矩阵相乘 我们将从矩阵相乘的特例向量相乘开始即一个矩阵与一个向量相乘

让我们从一个例子开始左边是一个矩阵右边是一个向量假如我们将这个矩阵与这个向量相乘结果会怎样呢？我先快速计算出结果然后我们再退回去查看每一个步骤很明显相乘的结果将是一个向量我先将这部分完成然后再来解释我刚刚是怎么做的

_1526563414_2041992383_1539953906_1526563414_2041992383.png

要计算出结果向量的第一个元素我将会 取这两个数字并把他们把矩阵 A 的然后把对应相乘的结果加起来 取1乘以1 同时取3 乘以 5 计算得到1和15 相加得16 我将在这儿写上16 要计算第二行的第二个元素我需要将第二行与这个向量相乘所以我得到 4乘以1 加上0乘以5 结果等于4 因此在这里写上4 对于最后一个元素我需要计算(2, 1) 乘以 (1, 5) 所以先计算2乘以1 再加上 1乘以5 最后结果为7 所以我在这儿写上7

_1526563424_2094856845_1539953936_1526563424_2094856845.png

事实证明 3x2的矩阵和一个2x1的矩阵即一个二维向量相乘的结果我们得到的将是一个3×1 的矩阵这个3×1的矩阵就是这么得来的也就是一个三维向量

_1526563438_1477954396_1539953945_1526563438_1477954396.png

我想我可能计算时做得很快你们并不一定能够自己重复这个过程下面让我们更加仔细的看一下刚刚我做了些什么以及一个向量和一个矩阵相乘的计算过程是怎样的下面详细介绍了如何计算一个矩阵与一个向量相乘假设这是一个矩阵A 我希望将它乘以一个向量x 结果记为向量y 所以矩阵A是一个 m×n维矩阵有m行和n列我们让它与一个 n×1的矩阵相乘换言之一个n维向量明显地这里的两个n是相等的也就是说 这个矩阵的列数有n列必须要与另一个相乘矩阵的行数相同 即必须匹配这个向量的维数。这样相乘的结果将会是一个n维向量y m 将与矩阵A的行数相同

_1526563449_1514757581_1539953956_1526563449_1514757581.png

那么如何计算这个向量y呢？事实上计算y的过程可以分解为计算 yi 的值让 A 的第 i 行元素分别乘以向量 x 中的元素并且相加就是这样子为了得到 y 的第一个元素无论是多少我们将会把矩阵 A 的第一行元素每次同一个向量 x 的元素相乘我取第一个数与第一个数相乘然后取第二个数同第二个数相乘取第三个数与第三个数相乘直到全部乘完最后将这些相乘的结果加起来这样我们就得到了 y 的第一个元素

_1526563458_960937756_1539954008_1526563458_960937756.png

然后我们来计算 y 的第二个元素接下来我们取A的第二行然后重复整个过程现在我们取A的第二行将它与其他元素相乘也就是 x 的元素将结果相加这样我们就得到了 y 的第二个元素依次计算下去我们取A得第三行逐行地与向量x相乘将结果加起来然后得到第三个元素以此类推直到最后一行

所以上述就是具体步骤让我们再举一个例子在这个例子中我们先看一下矩阵的维度左边是一个 3×4矩阵右边是一个四维向量也就是4×1矩阵所以这样相乘的结果将是一个三维向量我们在写的时候要给这个向量留三个元素的空间

_1526563479_2071501370_1539954037_1526563479_2071501370.png

现在让我们一起来算一下首先是第一个元素我将会取这四个数并将它们与向量x相乘所以我需要计算 1×1 加上2×3 加1×2 加5×1 等于 1 +6 再加上2 +6 也就是14 而对边距来说第二个元素我要取这一行然后与向量 (0×1)+3相乘我们将得到 0×1 + 3×3 0×2 + 4×1 等于 9 + 4 也就是13 最后对最后一个元素我将取最后一行所以我得到了-1×1 -2×3 加上0×2 加上0×1 所以我们将得到-1和-6 相加得 -7 明白? 所以我最后的答案是一个向量其中的元素为 14 我将不给这些字涂上颜色 13 -7

_1526563488_238534241_1539954070_1526563488_238534241.png

如前面说的计算结果是一个3×1的矩阵上述就是矩阵和向量相乘的方法我知道这张幻灯片上内容很多如果你在看的过程中不是很确定这些数字怎么来的你可以随时暂停视频慢慢地仔细琢磨整个计算过程尽量确保自己理解了得到14 13 11 这些结果的每一个步骤
最后我将教你们一个小技巧 假设我有四间房子这些房子有四种大小我有一个假设函数用于预测房子的价格我需要计算四间房子的大小作为 h(x) 的大小即预测的房价这里有一种简单的方法 可以同时计算四间房子的预测价格

_1526563507_1294767834_1539954092_1526563507_1294767834.png

我可以将它简单地利用矩阵向量相乘的思想来计算所以对于这个问题我会这么计算首先我要构建一个如下所示的矩阵元素是1 1 1 1 然后我把四个房子的大小写在这儿我还需要构造一个向量我的向量它将是一个二维向量即 40 和 0.25 这是预测函数的两个系数 θ0 和 θ1 接下来

_1526563536_1519908066_1539954138_1526563536_1519908066.png

我要做的就是将我构造好的矩阵和向量相乘这是相乘符号我将得到什么结果呢？左边是一个 4×2 矩阵右边是一个 2×1 矩阵所以结果将是一个4×1向量对吧所以让我在幻灯片上写上结果将是一个4×1的矩阵输出结果也就是一个四维向量让我来把它写出来用四个实数表示我的四个元素事实上结果的第一个元素我的计算方式是将这一行同我的向量相乘结果将是 -40×1 + 4.25×2104 顺便说一下在先前的幻灯片中我写的是 1× (-40) + 2104 × 0.25 但是顺序无关紧要对吧？ -40×1 和 1×(-40)是一样的这第一个元素就是当x为2104时的 h 值因此这是我的第一个房子的预测价格那么第二个元素呢？你应该已经想到了我要怎么计算第二个元素了对吧? 我要把这个乘以我的向量所以就是 -40×1 + 0.25×1416 这就是x为1416的 h 对吧? 这是第三个和第四个后面就依次计算这个4×1矩阵的第三和第四个元素得出结果这里我画了绿色边框的部分是一个实数对吧？它是一个实数这里我画了洋红色边框的部分紫色洋红色边框是一个实数对吧？所以右边最右边就是一个 4×1矩阵是一个4维向量

_1526563587_1184137581_1539954167_1526563587_1184137581.png

这个例子的一个小技巧是当你在程序中实现这个过程的时候当你有四间房子你想使用自己的预测函数来预测房子的价格完成这些工作你可以用一行代码搞定我们后面会谈到Octave 以及编程语言你可以只写一行代码就完成整个过程你可以这样写 prediction = DataMatrix × Parameters 对吧数据矩阵是这一部分参数是这一部分这就是一个矩阵向量乘法

_1526563599_1602442101_1539954208_1526563599_1602442101.png

如果你这么做了这个变量prediction 抱歉我的字写得很潦草只需要实现这一行代码如果你有一个做矩阵向量相乘的函数库的话如果你这样做的话右侧的prediction变量就会形成一个4维向量给你所有的预测价格另一种计算方式是作为一种矩阵向量相乘的方式实际上就是一种通过for循环 for 1 to 4 对吧？如果说你有一千间房子就将是 for 1 to 1000 或者别的任何数然后如果i等于的话你必须写一个有一个假设条件 I相等然后需要做比矩阵向量相乘多得多的工作当你有大量的房子的时候如果你试图预测不只是四座或许是一千座房子的时候事实证明当你使用矩阵向量相乘的方法时在计算机中使用任何语言不仅仅是Octave 还有C++ Java Python 等高级语言以及其他语言都可以很快的实现事实证明像左边这样子写代码不仅可以简化你的代码现在你只需要写一行代码而不是一堆代码而且还有一个微妙的好处我们后面将会了解到就是基于你所有的房子这样做计算效率将会更高比你像右边那样用代码实现公式的方式效率将会高很多我后面在讨论向量化的时候会详细地讨论这个问题所以通过这种方式计算预测值不仅代码更加简洁而且效率更高基本用不上我们在后面在其他模型中计算实例的回归的时候将会有效地利用到这一讲的内容在接下来的视频中我将会从特殊到一般讲讲矩阵与矩阵相乘的情况

矩阵向量乘法笔记

矩阵和向量的乘法如图：m×n 的矩阵乘以 n×1 的向量，得到的是 m×1 的向量

_1526563623_126184414_1539954234_1526563623_126184414.png

举例

_1526563631_819280345_1539954242_1526563631_819280345.png

Matrix Matrix

在这段视频中我们将会讨论矩阵 矩阵的乘法以及如何将两个矩阵相乘 我们会使用这样一种方法在线性回归中用以解决参数计算的问题 这种方法会把θ0、θ1等参数都放在一起来计算 也就是说 我们不需要一个迭代的梯度下降算法

当我们谈到这个算法的时候就会发现矩阵以及矩阵间的乘法运算是你必须理解的关键步骤之一所以让我们像往常那样从一个例子开始比方说我有两个矩阵我想将它们相乘让我先只是按照这个例子做一遍（乘法）然后告诉你这其中运算的细节
那么我要做的第一件事是我先把右边这个矩阵的第一列提取出来然后我将会把左边的这个矩阵和之前取出来的这一列（前面提过的，向量）相乘这只是第一列是吧？然后我们可以看到如果我这么做我就会得到向量（11,9）所以这是与上个视频的矩阵和向量的乘法是一样的我已经提前算出了这个结果是（11,9）那么之后的第二件事我要做的就是我将把第二列再单独提出出来右边这个矩阵的第二列然后我将要把它和左边这个矩阵相乘是的吧所以这就是那个矩阵用右边的第二列来乘以这个矩阵因此同样的这是一个矩阵和向量的乘法运算这就是你从上一个视频所学到的如果你这么做把这个矩阵和这个向量相乘你会得到（10,14）这个结果顺便说一下如果你想练习矩阵和向量的乘法运算那么就先暂停下视频自己算一算结果对不对好吧现在我仅仅需要将得到的这两个结果放在一起那么这就是我的答案了那么我们可以看到计算结果是一个2 x 2的矩阵我用来填充这个矩阵的方法就是把我的（11,9）填在这里把（10，14）填在第二列是的吧？所以这就是如何将两个矩阵相乘的详细方法与过程每次你只需要看第二个矩阵的一列然后把你的答案拼凑起来

_1526563661_226179955_1539954253_1526563661_226179955.png

再次强调下我们将一步步的来计算几秒中的时间里需要非常仔细但我也要指出我也要指出的是第一个例子是一个2X3矩阵乘以一个 3x2的矩阵他们相乘得到的结果是一个2x2的矩阵我们将很快知道为什么是这个结果好的这是计算的技巧让我们再看看这其中的细节看看究竟发生了什么
下面就是详细的过程我有一个矩阵A 我要把它乘以矩阵B 其结果会是一个新的矩阵C 并且你会发现你只能相乘那些维度匹配的矩阵因此如果A是一个m×n的矩阵就是说m行n列我将要用它与一个n×o的矩阵相乘并且实际上这里的n 必须匹配这里的这个n 所以第一个矩阵的列的数目必须等于第二矩阵中的行的数目 并且相乘得到的结果结果会是一个m×o的矩阵就像这个矩阵C这样

_1526563670_496687926_1539954288_1526563670_496687926.png

并且在前面的视频中我们所做的一切都符合这个规则这是一种当矩阵B的o值等于1的特殊情况（指的是矩阵和向量相乘）明白了吗？这是在B是一个向量的情况下但是现在我们要处理 O的值大于1的情况
所以这里就是你怎样把两个矩阵相乘为了得到结果我要做的就是我将要取 B矩阵的第一列把取出的这列看成一个向量并乘以矩阵A 用B矩阵的第一列这个计算结果将是 m×1的矩阵（也就是一个向量）我们把结果先放在这里

_1526563690_1096939048_1539954295_1526563690_1096939048.png