推荐在知乎阅读此文
矩阵的转置是我认为最难以从几何上理解的线性代数的概念之一。
矩阵论的很多内容就是实数域上的概念到复数域上的推广,我想,我只需聚焦于实数域上的概念即可。
矩阵的转置
Takeaway:
矩阵的转置就是把测量方向当作变换方向。
测量方向就是等值线的法线方向,就是等值线变换最快的方向。
在研究矩阵的转置的几何意义之前,我们先来看一下矩阵乘法到底做了一件什么事情。我们依旧考虑二维方阵的情况:
$$ \begin{bmatrix}1 & 0 \\ 1 & 1\end{bmatrix}\times \begin{bmatrix}3\\ 4\end{bmatrix} = \begin{bmatrix}3 \\ 7\end{bmatrix} $$
等号右边两个数分别代表什么含义?上面的这个3实际代表向量(3,4)在(1,0)方向上的点积,下面的这个7就代表向量(3,4)在(1,1)方向上的点积。通过之前的讨论我们知道,A向量与B向量的点积不一定等于投影长度,而是相当于A向量在B向量方向上的投影乘以B向量的长度,并且点积的操作是满足交换律的。那么这样的每一行,就形成了一种我们看待向量在不同方向上点积的一种视角,我们不妨把行向量所代表的方向看作一种测量方向。那么矩阵的转置就相当于把测量方向变作了变换方向。
我们再进一步考察一下测量方向这个东西到底是什么。我们接着举一个例子:
$$ \begin{bmatrix}1&2 \\ 3 & 4\end{bmatrix}\times\begin{bmatrix}a \\ b\end{bmatrix}=\begin{bmatrix}a+2b \\ 3a+4b\end{bmatrix} $$
这里我们其实规定了两个测量方向:
$$ y_1 = a+2b\\ y_2 = 3a+4b $$
在这些方向上,会形成等值线,当$y_1$和$y_2$分别固定的时候,我们就有了等值线。它们的含义是:在同一条直线上的所有点,经过某一行向量的测量后,得到的值都相同。那么行向量是什么方向呢?很显然就是等值线变化最快的方向,也就是等值线的法线方向。行向量是和这些等值线是垂直的。所以,矩阵的每一行都可以这样理解:它画出了一套等值线。行向量本身那就是这套等值线的法线方向,也就是测量值增长最快的方向。
总结一下,原矩阵在变换基向量的基础上,也暗含了用行向量在输入空间中铺设等值线这样一个变换;转置矩阵则把这些等值线的法线方向拿出来,当作新的生成方向来组合。
事到如今,我们知道了转置在方阵上的含义,那么非方阵呢?其实只需要一句话来表示——行向量在输入空间里,负责测量输入;列向量在输出空间里,负责生成输出。一个瘦高矩阵,输入维度少,输出维度多,可以理解对输入做更多次测量,得到更多个数字。反之也可以同理理解。
正交矩阵
Takeaway:
正交矩阵代表一类不改变长度、角度和形状的线性变换。
首先给出正交矩阵的概念,一个正交矩阵记录为$A$,其必满足:
$$ A^T=A^{-1} $$
这一类矩阵的理解,我想直接通过其表示的变换展开,逐步推出它的定义。正如Takeaway里面说的,正交矩阵正交矩阵代表一类不改变长度、角度和形状的线性变换——也就是只有旋转和镜面反射变换。那么,这就表示,坐标系的网格,在变换前后,形状、大小是完全不变的。那么,这要求选择的基必须要长度都为1,必须也要都彼此垂直,假设我们的基是$p_1,p_2,\cdots,p_n$,那么我们就必须要有:
$$ p_i\cdot p_j=0,i\neq j, \forall i,j\in[1,n] $$
以及:
$$ \text{Length}(p_i)=1,\forall i\in[1,n] $$
这里我们还没引入范数的概念,那么就先用Length来表示吧,其实Length就是向量的坐标值每一个分量的平方和开根号。那么根据$A$矩阵所代表的线性变换类型,每一个等值线的法线方向,也是彼此垂直的,亦即——该矩阵的行向量也是彼此正交的。通过转置矩阵的含义我们知道,行向量是测量方向,是等值线增长最快的方向,那么其长度就是增长的速度,在标准坐标系下,你会发现每条坐标轴上的变化量,都是单位1的,那么该矩阵的行向量长度也是1,也就是说,$A$矩阵的转置矩阵$A^T$,也代表了一类不改变长度、角度和形状的线性变换。
这么写,我自己看都难以理解,我们形式化表达一下,假设:
$$ A=(p_1,p_2,\cdots,p_n) $$
那么这就相当于把标准坐标系的第一个轴挪到$p_1$,第二个轴挪到$p_2$,……。每一个轴都和其他轴垂直,每一个轴上的单位刻度都是1。好,我们随便放一个向量:
$$ Ax = x_1p_1+x_2p_2+\cdots+x_np_n $$
那么每一个向量的长度是:
$$ (x_1p_1+x_2p_2+\cdots+x_np_n)^2 $$
由于不同$p$之间彼此正交,那么最后:
$$ (x_1p_1+x_2p_2+\cdots+x_np_n)^2=x_1^2p_1^2+x_2^2p_2^2+\cdots+x_n^2p_n^2=\text{Length}(x) $$
所以,这说明$A$不改变长度。类似地,它也不改变向量之间的角度。所以,列向量构成单位正交组的矩阵,几何上就是一类不改变长度和角度的刚性线性变换。
那么行向量呢,我们把A变成:
$$ A=\begin{bmatrix} - & r_1^T & - \\ - & r_2^T & -\\ \cdots & \cdots & \cdots \\ - & r_n^T & - \end{bmatrix} $$
那么:
$$ y=Ax= \begin{bmatrix} r_1\cdot x\\ r_2\cdot x\\ \cdots\\ r_n\cdot x \end{bmatrix} $$
也就是说,$A$的第$i$个行向量$r_i$,就是第$i$个输出坐标$y_i$的测量方向,对应的等值线/平面/Whatever you call it就是:
$$ r_i\cdot x = c $$
这组等值线的法线方向就是$r_i$。现在,由于$A$不改变长度和角度,它只是把标准坐标网格旋转或反射了一下。因此,标准坐标系中那些彼此垂直、间距为1的坐标网格,在变换前后仍然应该保持彼此垂直、间距为1。也就是说,$y=Ax$实际上是用$A$的行向量去测量向量$x$,而$A$的行向量又是标准正交基,那么这就相当于求了每个方向上的投影。既然如此,为了还原$x$,就沿着对应方向拼回去就可以了,也就是:
$$ x=A^Ty $$
那么:
$$ y=Ax=AA^Ty $$
那么也就是:
$$ A^T=A^{-1} $$
总结一下:矩阵$A$的行向量给出了各个坐标函数的等值线法线方向。如果这些法线方向构成单位正交基,那么$Ax$就是在一组新的正交坐标轴上测量$x$。而$A^T$的作用,就是把这些测量值沿着对应的法线方向重新拼回原向量。因此,对于正交矩阵来说,转置矩阵天然就是逆矩阵。
酉相似
Takeaway:
酉相似就是用一组新的标准正交基来描述线性变换。
酉相似的定义是,若两个矩阵$A$与$B$酉相似,就相当于存在一个酉矩阵$U$,使得:
$$ A = U^*BU $$
$U^*$表示$U$的共轭转置,不过我们主要讨论实数域,那么就是正交相似,存在一个正交矩阵$Q$,使得:
$$ A=Q^TBQ $$
这个就很好理解了,先把矩阵换到一套新的标准正交基上,也就是$Q$变换,然后在这组基下描述线性变换,也就是$B$,随后转到常用的坐标轴下,也就是$Q^T$。