MENU

【Rethink Math】矩阵论的几何理解:线性代数篇(二)

2026 年 06 月 17 日 • 文章

线性代数势必要从几何层面理解,否则难以捕捉其妙处。

推荐在知乎阅读本文

这一部分的内容参考了3B1B的「线性代数的本质」一作品,加入了很多笔者自己的想法。

逆矩阵、秩、列空间和零空间

Takeaway:

矩阵相乘代表线性变换的复合。

逆矩阵将某矩阵变换得来的向量,变回标准基。

一个空间的维度,就是这个空间中任意一组基所包含的向量个数。

矩阵的秩就是指线性变换后的空间的维度。

列向量张成的空间就是矩阵的列空间。零空间就是所有被矩阵 $A$ 压到零向量的输入向量组成的空间。

列空间是变换保留下来的维度,零空间是变换压没的维度,二者之和为原维度。

上期我们说到,矩阵代表的是一种变换,一种基的替换。那么将这种变换变回标准坐标系、标准基的变换,就叫做该矩阵的逆矩阵。我们先不仔细想这句看起来很冗长的话,我们先来考虑简单的情况,也就是——两个矩阵相乘代表什么?举个例子:

$$ \begin{bmatrix}2 &0\\ 2&6\end{bmatrix}\times\begin{bmatrix}1&2\\3& 4\end{bmatrix}=\begin{bmatrix}2&4\\ 20&28\end{bmatrix} $$

我们依旧认为矩阵代表线性变换,那么两个矩阵相乘,就代表两个变换的复合。举个例子,向量$\begin{bmatrix}1\\ 0\end{bmatrix}$经过等式左右侧的变换,结果是一致的。这里我们通常规定,先经历最右边的变换,再逐步进行左侧的变换,因为我们会通常写作$ABx=y$的形式,那么就先做$B$的变换。

那么这样,我们就会发现一种特殊的变换复合,即复合之后相当于什么都没变:

$$ \begin{bmatrix}2 &0\\ 2&6\end{bmatrix}\times\begin{bmatrix}\frac{1}{2}&0\\ -\frac{1}{6}& \frac{1}{6} \end{bmatrix}=\begin{bmatrix}1&0 \\ 0 & 1\end{bmatrix} $$

那么这对应着,这两个矩阵所代表的线性变换,是彼此互逆的,就称作两个矩阵互为彼此的逆矩阵。也就是说,一个标准基下的向量经过这两次变换之后,还是原来的向量本身。

那么为什么行列式等于0的矩阵没有逆矩阵呢?还记得我们上期提到的吗——行列式衡量变换前后有向面积的变化。如果行列式等于0,就表明一个形状在当前维度中没有面积,也就是降维了。很显然,无法通过一个线性变换将一个点变成一条线、一条线变成一个平面——这样的不存在性质导致了行列式为0的矩阵没有逆矩阵。更进一步地讲,一条线变成一个平面,相当于把线上的一个向量,变成了空间中的若干向量,这很显然是不可能通过线性变换做到的。

那么我们如何评估降到了多少维呢?通过秩来衡量。

我们先不直接触及这个概念,先从几何上考虑一下,降到多少维是什么意思,空间的维度是什么意思?如果是一维,那么说明向量可以在一个方向上自由延展;二维就是向量可以在两个方向自由延展。一个空间的维度,就是这个空间中任意一组基所包含的向量个数。一维空间就是数轴,我们需要一个向量就足以描述这个空间了;二维空间就是平面,两条线确定一个平面,那么我们需要两个向量来描述这个空间,所以是二维。

矩阵的秩就是指线性变换后的空间的维度。如果秩为1,就表明变换将一个空间压缩到了一个数轴上;如果是2,就表示变换将空间变成了一个平面上。当我们把矩阵看作列向量的时候,它的秩就是这些列向量中的最大线性无关组的元素个数,也就是在这些列向量中找到一组列向量,它们之间线性无关,并且成员数是能找到的最大的。为什么这两个相等?因为最大线性无关组的成员个数,就表示这些向量最多能够在几个独立方向上产生贡献,表示矩阵变换后的空间最多能够在几个独立方向上延伸——这就是维度的概念。

在线性代数的教材上,我们通常会采用阶梯消元法,也就是把矩阵化作行阶梯型,然后通过查非零行的个数获得秩。这是因为,每一行都有一个主元,这个主元代表了变换能够在新的方向肆意延伸。而一个主元对应一个非零行。

到这里我们可以继续引入一个列空间的概念,我们将矩阵看作一种变换——把标准基换作矩阵的列向量,那么这些列向量张成的空间就是矩阵的列空间。形式化表达就是任意取一个向量$\vec{x}$,所有可能的$A\vec{x}$的集合,就是列空间了。通俗一点解释,就是原空间的所有向量,都经过$A$矩阵所表示的变换,变换后有一个能够覆盖到的区域,这个区域就叫做列空间:

$$ \text{Column}(A)=\{y|Ax=y,\forall x\} $$

当然,变换后,可能有很多向量被压缩到了零向量,那么这些输入向量的集合就叫做零空间

$$ \text{Null}(A)=\{x|Ax=0\} $$

我们来仔细想一想这两个空间之间的联系。列空间是什么?其实就是变换之后被保留下来的维度,对吧?因为列空间是列向量张成的空间,在这个空间里向量可以自由自在地延展!但是零空间不一样,零空间是被压缩至死的维度,表示一些维度的信息,经过变换之后,消失不见了。那么二者的维度之和,就很显然是原维度了。这便是公式:

$$ \dim(\text{Null}(A))=n-\dim(\text{Column}(A)) $$

的由来,也就是零空间的维数(压缩至死的维度),等于原空间的维数减去矩阵秩/列空间的维数(保留下来的维度)。

点积

Takeaway:

点积是一种求夹角的运算。

3B1B在这里的解释我不是很满意,我觉得点积的几何意义需要从夹角入手。比如我们要考虑两个向量之间的夹角,该怎么算呢?我们考虑二维的过程,设$\vec{a}=AC=(x_1,x_2)$,$\vec{b}=AB=(y_1,y_2)$:

这里我们要求$\ang CAB$的大小,记作$\theta$,那么很显然:

$$ \cos{\theta}=\frac{\text{Length}(AD)}{\text{Length}(AC)}=\frac{\text{Length}(AD)}{\mid\mid\vec{a}\mid\mid} $$

这里的问题就是,$AD$的长度该怎么求?我们使用余弦定理。我们考虑$||a-b||^2$(不想手敲箭头了,原谅我!):

$$ ||a-b||^2=||a||^2+||b||^2-2||a||||b||\cos{\theta}=(x_1-x_2)^2+(y_1-y_2)^2 $$

然后展开:

$$ ||a-b||^2=x_1^2+y_1^2+x_2^2+y_2^2-2(x_1x_2+y_1y_2) $$

化简:

$$ x_1x_2+y_1y_2=||a||||b||\cos{\theta} $$

所以:

$$ \cos{\theta}=\frac{x_1x_2+y_1y_2}{||a||||b||} $$

随后,我们把分子规定为点积的形式即可。到这里我们也能明白,为什么点积是满足交换律的,因为实数的乘法本身就是满足交换律的。

特征向量与特征值

Takeaway:

特征向量就是在线性变换前后,相当于原向量进行缩放的向量,缩放倍数即为特征值。

在变换的过程中,可能会有一些向量,变换前后指向的方向仍和原向量共现,只是相当于缩放。那么,对于这些向量的运算,就可以简化成向量的数乘,这些向量就叫做特征向量,可以记作$\vec{v_i}$,数乘的倍数就叫做特征值,通常记作$\lambda$,也就是:

$$ A\vec{v_i}=\lambda\vec{v_i} $$

我们会经常碰见一种情况,就是矩阵有多个相同的特征值,这是什么意思?当然就是矩阵所代表的线性变换,在不同方向上缩放的倍数是一样的啦!

总结

到这里我们似乎把3B1B的视频里涉及到的大部分内容讲完了。