【Rethink Math】矩阵论的几何理解：线性代数篇（二）

线性代数势必要从几何层面理解，否则难以捕捉其妙处。

推荐在知乎阅读本文

这一部分的内容参考了3B1B的「线性代数的本质」一作品，加入了很多笔者自己的想法。

逆矩阵、秩、列空间和零空间

Takeaway:
矩阵相乘代表线性变换的复合。
逆矩阵将某矩阵变换得来的向量，变回标准基。
一个空间的维度，就是这个空间中任意一组基所包含的向量个数。
矩阵的秩就是指线性变换后的空间的维度。
列向量张成的空间就是矩阵的列空间。零空间就是所有被矩阵 $A$ 压到零向量的输入向量组成的空间。
列空间是变换保留下来的维度，零空间是变换压没的维度，二者之和为原维度。

上期我们说到，矩阵代表的是一种变换，一种基的替换。那么将这种变换变回标准坐标系、标准基的变换，就叫做该矩阵的逆矩阵。我们先不仔细想这句看起来很冗长的话，我们先来考虑简单的情况，也就是——两个矩阵相乘代表什么？举个例子：

$$ \begin{bmatrix}2 &0\\ 2&6\end{bmatrix}\times\begin{bmatrix}1&2\\3& 4\end{bmatrix}=\begin{bmatrix}2&4\\ 20&28\end{bmatrix} $$

我们依旧认为矩阵代表线性变换，那么两个矩阵相乘，就代表两个变换的复合。举个例子，向量$\begin{bmatrix}1\\ 0\end{bmatrix}$经过等式左右侧的变换，结果是一致的。这里我们通常规定，先经历最右边的变换，再逐步进行左侧的变换，因为我们会通常写作$ABx=y$的形式，那么就先做$B$的变换。

那么这样，我们就会发现一种特殊的变换复合，即复合之后相当于什么都没变：

$$ \begin{bmatrix}2 &0\\ 2&6\end{bmatrix}\times\begin{bmatrix}\frac{1}{2}&0\\ -\frac{1}{6}& \frac{1}{6} \end{bmatrix}=\begin{bmatrix}1&0 \\ 0 & 1\end{bmatrix} $$

那么这对应着，这两个矩阵所代表的线性变换，是彼此互逆的，就称作两个矩阵互为彼此的逆矩阵。也就是说，一个标准基下的向量经过这两次变换之后，还是原来的向量本身。

那么为什么行列式等于0的矩阵没有逆矩阵呢？还记得我们上期提到的吗——行列式衡量变换前后有向面积的变化。如果行列式等于0，就表明一个形状在当前维度中没有面积，也就是降维了。很显然，无法通过一个线性变换将一个点变成一条线、一条线变成一个平面——这样的不存在性质导致了行列式为0的矩阵没有逆矩阵。更进一步地讲，一条线变成一个平面，相当于把线上的一个向量，变成了空间中的若干向量，这很显然是不可能通过线性变换做到的。

那么我们如何评估降到了多少维呢？通过秩来衡量。

我们先不直接触及这个概念，先从几何上考虑一下，降到多少维是什么意思，空间的维度是什么意思？如果是一维，那么说明向量可以在一个方向上自由延展；二维就是向量可以在两个方向自由延展。一个空间的维度，就是这个空间中任意一组基所包含的向量个数。一维空间就是数轴，我们需要一个向量就足以描述这个空间了；二维空间就是平面，两条线确定一个平面，那么我们需要两个向量来描述这个空间，所以是二维。

矩阵的秩就是指线性变换后的空间的维度。如果秩为1，就表明变换将一个空间压缩到了一个数轴上；如果是2，就表示变换将空间变成了一个平面上。当我们把矩阵看作列向量的时候，它的秩就是这些列向量中的最大线性无关组的元素个数，也就是在这些列向量中找到一组列向量，它们之间线性无关，并且成员数是能找到的最大的。为什么这两个相等？因为最大线性无关组的成员个数，就表示这些向量最多能够在几个独立方向上产生贡献，表示矩阵变换后的空间最多能够在几个独立方向上延伸——这就是维度的概念。

在线性代数的教材上，我们通常会采用阶梯消元法，也就是把矩阵化作行阶梯型，然后通过查非零行的个数获得秩。这是因为，每一行都有一个主元，这个主元代表了变换能够在新的方向肆意延伸。而一个主元对应一个非零行。

到这里我们可以继续引入一个列空间的概念，我们将矩阵看作一种变换——把标准基换作矩阵的列向量，那么这些列向量张成的空间就是矩阵的列空间。形式化表达就是任意取一个向量$\vec{x}$，所有可能的$A\vec{x}$的集合，就是列空间了。通俗一点解释，就是原空间的所有向量，都经过$A$矩阵所表示的变换，变换后有一个能够覆盖到的区域，这个区域就叫做列空间：

$$ \text{Column}(A)=\{y|Ax=y,\forall x\} $$

当然，变换后，可能有很多向量被压缩到了零向量，那么这些输入向量的集合就叫做零空间：

$$ \text{Null}(A)=\{x|Ax=0\} $$

我们来仔细想一想这两个空间之间的联系。列空间是什么？其实就是变换之后被保留下来的维度，对吧？因为列空间是列向量张成的空间，在这个空间里向量可以自由自在地延展！但是零空间不一样，零空间是被压缩至死的维度，表示一些维度的信息，经过变换之后，消失不见了。那么二者的维度之和，就很显然是原维度了。这便是公式：

$$ \dim(\text{Null}(A))=n-\dim(\text{Column}(A)) $$

的由来，也就是零空间的维数（压缩至死的维度），等于原空间的维数减去矩阵秩/列空间的维数（保留下来的维度）。

点积

Takeaway:
点积是一种求夹角的运算。

3B1B在这里的解释我不是很满意，我觉得点积的几何意义需要从夹角入手。比如我们要考虑两个向量之间的夹角，该怎么算呢？我们考虑二维的过程，设$\vec{a}=AC=(x_1,x_2)$，$\vec{b}=AB=(y_1,y_2)$：

这里我们要求$\ang CAB$的大小，记作$\theta$，那么很显然：

$$ \cos{\theta}=\frac{\text{Length}(AD)}{\text{Length}(AC)}=\frac{\text{Length}(AD)}{\mid\mid\vec{a}\mid\mid} $$

这里的问题就是，$AD$的长度该怎么求？我们使用余弦定理。我们考虑$||a-b||^2$（不想手敲箭头了，原谅我！）：

$$ ||a-b||^2=||a||^2+||b||^2-2||a||||b||\cos{\theta}=(x_1-x_2)^2+(y_1-y_2)^2 $$

然后展开：

$$ ||a-b||^2=x_1^2+y_1^2+x_2^2+y_2^2-2(x_1x_2+y_1y_2) $$

化简：

$$ x_1x_2+y_1y_2=||a||||b||\cos{\theta} $$

所以：

$$ \cos{\theta}=\frac{x_1x_2+y_1y_2}{||a||||b||} $$

随后，我们把分子规定为点积的形式即可。到这里我们也能明白，为什么点积是满足交换律的，因为实数的乘法本身就是满足交换律的。

特征向量与特征值

Takeaway:
特征向量就是在线性变换前后，相当于原向量进行缩放的向量，缩放倍数即为特征值。

在变换的过程中，可能会有一些向量，变换前后指向的方向仍和原向量共现，只是相当于缩放。那么，对于这些向量的运算，就可以简化成向量的数乘，这些向量就叫做特征向量，可以记作$\vec{v_i}$，数乘的倍数就叫做特征值，通常记作$\lambda$，也就是：

$$ A\vec{v_i}=\lambda\vec{v_i} $$

我们会经常碰见一种情况，就是矩阵有多个相同的特征值，这是什么意思？当然就是矩阵所代表的线性变换，在不同方向上缩放的倍数是一样的啦！

总结

到这里我们似乎把3B1B的视频里涉及到的大部分内容讲完了。

文章目录

【Rethink Math】矩阵论的几何理解：线性代数篇（二）

2026 年 06 月 17 日 • 文章

逆矩阵、秩、列空间和零空间

点积

特征向量与特征值

总结