12月 20

矩阵 – 基础概念

名词或数学表示:

$R^n$:之前论文里经常出现这个,表示 all n-tuples of real numbers,n维实数空间。

transpose:转置

Linear Functions:当函数满足$f(\alpha x+y)=\alpha f(x)+f(y)$时,f被称为Linear Function。注意LF必过原点。当$f(x)=\alpha x+\beta$时,f is translated by a constant β.此时称为affine functions

 

rank(秩):一组向量如果满足$\sum c_i\vec{a}_i=0$,则这一组向量$\vec{a}_i$是线性相关的(linearly independent)。设一矩阵A,A的秩定义为:

rank(A) = number of linearly independent rows of A = number of linearly independent columns of A

矩阵A的行的秩和列的秩始终是相等的,所以rank(A)就是整个矩阵的秩。设A为n*p的矩阵,A的秩必然是n和p中的最小值。为啥?因为假设有一个3*4的矩阵,三行四列,那么对于该矩阵的列向量元素,就有4个列向量$(\vec{a}_1, \vec{a}_2, \vec{a}_3,\vec{a}_4)$,每个向量包含三个元素,根据线性方程组的性质,最后一列向量必然可以被表示为前三个列向量的线性组合:

$\vec{a}_4=c_1\vec{a}_1+c_2\vec{a}_2+c_3\vec{a}_3$必有解      式(1)

因此n和p中大的那个部分向量必然线性相关。

对于n*n的方形矩阵A,若rank(A)=n,则称矩阵满秩(full rank)。如果矩阵不满秩,其行列式必然为0。为何?因为若方矩阵不满秩,那么在求行列式(determinant)的时候,其有一行必然可以化为下图中左边那个样子,就是化为全部是0:

这样就使得矩阵变成了(n-1)*n的矩阵,导致行变量比列变量少了一维,所以列向量就变成了式(1)描述的那样(因为方程必有解而导致列向量必线性相关)。因此矩阵可化为右侧那个样子。所以矩阵的行列式必为0

positive definite matrices (正定矩阵):The symmetric matrix A is said to be positive definite if $\vec{x}^TA\vec{x}>0$ for all possible vectors $\vec{x}$(except x = 0).

对于正定矩阵,所有对角线元素(diagonal elements)大于0。注意$\vec{x}^TA\vec{x}$是一个标量!一个正定矩阵可以被分解为$A=B^TB$,B为非奇异上半角矩阵(nonsingular upper triangular matrix),也就是下半角全0。获得B的方法叫做Cholesky decomposition。其实就跟一个标量被分解成平方根一个道理。

orthogonal vectors and matrices(正交):正交向量 $\vec{a}^T\vec{b}=0$,是对于两个向量来说的,而正交矩阵是对于单个矩阵来说的。如果一个矩阵C,他的所有列向量相互正交并归一化,那么当计算$C^TC$时会发现,$\vec{c}^T_i\vec{c}_i=1$,其余$\vec{c}^T_i\vec{c}_j=0$,所以$C^TC=I$。一个正交矩阵乘以一个向量所得的新向量相当于对原空间的一个多维空间的旋转变换(rotating axes)(坐标轴旋转)。因为假设$\vec{z}=C\vec{x}$,$\vec{z}^T\vec{z}=(C\vec{x})^T(C\vec{x})=\vec{x}^TC^TC\vec{x}=\vec{x}^TI\vec{x}=\vec{x}^T\vec{x}$,即变换之后,原来的z与z之间的距离和新的x和x之间的距离相等。

eigenvalues and eigenvectors(特征值):对于下式$A\vec{x}=\lambda\vec{x}$成立时,$\lambda$为特征值,x为特征向量。求特征向量的方法是令$|A-\lambda I|=0$,即行列式的值为0。该式被称为characteristic equation。注意$\lambda$会有很多个。正定矩阵的所有特征值为正值。所有对称矩阵A的特征向量相互正交。

3月 13

矩阵 – 初等运算

一、矩阵基本运算

1. 一个向量默认是列向量,所以向量$a^T$是行向量

2. $(AB)^T=B^TA^T$

3. $|AB|=|A||B|$

4. 虽然$AB≠BA$,但是$|AB|=|BA|$

5. AB=BA=E,则A与B互为逆矩阵

6. 如果A可逆,则$|A|≠0$

7. 若A可逆,则$(\lambda A)^{-1}=\frac{1}{\lambda}A^{-1}$

8. $(AB)^{-1}=B^{-1}A^{-1}$  证: $(AB)(B^{-1}A^{-1})=A(BB^{-1})A^{-1}=AEA^{-1}=E$,因此$(AB)^{-1}=B^{-1}A^{-1}$

9. $AXB=C~~\implies X=A^{-1}CB^{-1}$,这就是大多数例子中推导X等于什么的式子

10. 如果 $A^TA=E$ 即 $A^{-1}=A^T$,则称A为正交矩阵(orthogonal matrix)

11. 如果数$\lambda$和n维非零列向量$\vec{x}$使得$A\vec{x}=\lambda \vec{x}$成立,那么$\lambda$是矩阵A的特征值(eigenvalue),$\vec{x}$称为矩阵A对应于$\lambda$的特征向量(eigenvector)

二、基本量计算

1.如果一个矩阵A可逆,则可通过如下方式计算$A^{-1}$

$[A|I]\xrightarrow{Gauss-Jorden}[I|A^{-1}]$

2.Sherman–Morrison-Woodbury formula

$(A+CD^T)^{-1}=A^{-1}-A^{-1}C(I+D^TA^{-1}C)^{-1}D^TA^{-1}$