线性代数之线性变换的解释

上传人:ji****72 文档编号:39546076 上传时间:2018-05-17 格式:DOCX 页数:9 大小:22.07KB
返回 下载 相关 举报
线性代数之线性变换的解释_第1页
第1页 / 共9页
线性代数之线性变换的解释_第2页
第2页 / 共9页
线性代数之线性变换的解释_第3页
第3页 / 共9页
线性代数之线性变换的解释_第4页
第4页 / 共9页
线性代数之线性变换的解释_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《线性代数之线性变换的解释》由会员分享,可在线阅读,更多相关《线性代数之线性变换的解释(9页珍藏版)》请在金锄头文库上搜索。

1、最近想知道特征值、特征值到底有什么物理意义,搜到了这篇文章,最近想知道特征值、特征值到底有什么物理意义,搜到了这篇文章,共享一下。共享一下。 来源:来源: 孙哲的日志孙哲的日志 1. 特征的数学意义我们先考察一种线性变化,例如 x,y 坐标系的椭圆方程可以写为x2/a2+y2/b2=1,那么坐标系关于原点做旋转以后,椭圆方程就要发生变换。我们可以把原坐标系的(x,y)乘以一个矩阵,得到一个新的(x,y)的表示形式,写为算子的形式就是(x,y)*M=(x,y)。这里的矩阵 M 代表一种线性变换:拉伸,平移,旋转。那么,有没有什么样的线性变换 b(b 是一个向量),使得变换后的结果,看起来和让(x

2、,y)*b 像是一个数 b 乘以了一个数字 m*b? 换句话说,有没有这样的矢量 b,使得矩阵 A*b 这样的线性变换相当于 A 在矢量 b 上面的投影 m*b? 如果有,那么 b 就是 A 的一个特征向量,m 就是对应的一个特征值。一个矩阵的特征向量可以有很多个。特征值可以用特征方程求出,特征向量可以有特征值对应的方程组通解求出,反过来也一样。例如,设 A 为 3 阶实对称矩阵,a1=(a,-a,1)T 是Ax=0 的解,a2=(a,1,-a)T 是(A+E)x=0 的解,a2,则常数 a=? 因为 a1=(a,-a,1)T 是 Ax=0 的解,说明 a1=(a,-a,1)T 是 A 的属于

3、 0 的特征向量,a2=(a,1,-a)T 是(A+E)x=0 的解,说明 a2=(a,1,-a)T 是A 的属于-1 的特征向量。实对称矩阵属于不同特征值的特征向量式正交的,所以 a2-a-a=0,a2,所以 a=0。还是太抽象了,具体的说,求特征向量的关系,就是把矩阵 A 所代表的空间,进行正交分解,使得 A 的向量集合可以表示为每个向量a 在各个特征向量上面的投影长度。例如 A 是 m*n 的矩阵,nm,那么特征向量就是 m 个(因为秩最大是 m),n 个行向量在每个特征向量 E 上面有投影,其特征值 v 就是权重。那么每个行向量现在就可以写为 Vn=(E1*v1n,E2*v2n.Em*

4、vmn),矩阵变成了方阵。如果矩阵的秩更小,矩阵的存储还可以压缩。再: 由于这些投影的大小代表了 A 在特征空间各个分量的投影,那么我们可以使用最小 2 乘法,求出投影能量最大的那些分量,而把剩下的分量去掉,这样最大限度地保存了矩阵代表的信息,同时可以大大降低矩阵需要存储的维度,简称 PCA 方法。举个例子,对于 x,y 平面上的一个点(x,y),我对它作线性变换,(x,y)*1,0;0,-1,分号代表矩阵的换行,那么得到的结果就是(x,-y),这个线性变换相当于关于横轴 x 做镜像。我们可以求出矩阵1,0;0,-1的特征向量有两个,1,0和0,1,也就是 x 轴和 y 轴。什么意思呢? 在

5、x 轴上的投影,经过这个线性变换,没有改变。在 y 轴上的投影,乘以了幅度系数-1,并没有发生旋转。两个特征向量说明了这个线性变换矩阵对于 x 轴和 y 轴这两个正交基是线性不变的。对于其他的线性变换矩阵,我们也可以找到类似的,N 个对称轴,变换后的结果,关于这 N 个对称轴线性不变。这 N 个对称轴就是线性变换 A的 N 个特征向量。这就是特征向量的物理含义所在。所以,矩阵 A等价于线性变换 A。对于实际应用的矩阵算法中,经常需要求矩阵的逆:当矩阵不是方阵的时候,无解,这是需要用到奇异值分解的办法,也就是A=PSQ,P 和 Q 是互逆的矩阵,而 S 是一个方阵,然后就可以求出伪逆的值。同时,

6、A=PSQ 可以用来降低 A 的存储维度,只要 P 是一个是瘦长形矩阵,Q 是宽扁型矩阵。对于 A 非常大的情况可以降低存储量好几个数量级。2. 物理意义特征向量有什么具体的物理意义? 例如一个驻波通过一条绳子,绳子上面的每个点组成一个无穷维的向量,这个向量的特征向量就是特征函数 sin(t),因为是时变的,就成了特征函数。每个点特征值就是每个点在特定时刻的 sin(x+t)取值。再如,从太空中某个角度看地球自转,虽然每个景物的坐标在不断的变换,但是这种变换关于地球的自传轴有对称性,也就是关于此轴的平移和拉伸的坐标变换不敏感。所以地球自转轴,是地球自转这种空间变换的一个特征向量。Google

7、的 PageRank,就是对 www 链接关系的修正邻接矩阵的,主要特征向量的投影分量,给出了页面平分。有什么特性呢? AB 和BA 有相同的特征向量-设 AB 的特征向量为 x,对应的特征值为b,则有(AB)x = bx,将上式两边左乘矩阵 B,得 B(AB)x = (BA)(Bx) = b(Bx),故 b 为 BA 的特征值,对应的特征向量为 Bx。反之亦然。什么是特征矩阵和特征值?我们用整体论来考虑,假设 P(A)=(1,2,3)是A 的 3 个特征向量。那么 P(A2)就是(12,22,32),P 可以看作是一种算子。当然,算子的特性是需要用部分/细节详细证明的。一旦证明,就可以作为整

8、体的特征。特征值有什么特性?说明矩阵可以分解成 N 维特征向量的投影上面,这 N 个特征值就是各个投影方向上的长度。由于 n*n 矩阵 A 可以投影在一个正交向量空间里面,那么任何 N 维特征向量组成的矩阵都可以是线性投影变换矩阵,那么 I 就是一个同用的线性变换投影矩阵。所以对于特征值 m,一定有是够成了一个没有线性无关向量的矩阵 Aa=ma 两边同乘以 I 得到 Aa=maI,所以(A-mI)a=0 有非 0 解,那么|A-mI|=0(可以用反正法,如果这个行列式不是 0,那么 N 个向量线性无关,在 N 维空间中只能相交于原点,不可能有非 0 解)。所以可以推出一些很有用的性质,例如 A

9、=1/2,1,1;0,1/3,1;0,0,1/5,那么只要满足|A- mI|=0 的值就是特征值,显然特征值数组立即可以得到(1/2,1/3,1/5)。一个 n*n的矩阵 A,秩=1,那么最大线性无关组=1 组,特征向量=1 个,任意 n 维非零向量都是 A 的特征向量。特征向量本身不是定死的,这就好比坐标系可以旋转一样。一旦特征向量的各个方向确定了,那么特征值向量也就确定了。求特征值的过程就是用特征方程:|A-mE|=0,P(1/A)=1/P(A),可以证明。有什么物理含义呢?一个 N 维线性无关的向量,去掉其中的一维,那么就有至少两个向量是线性相关的了,所以行列式=0。特征矩阵有什么作用?

10、把矩阵变化为正定矩阵,也就是 A=P-1BP,这样的变换,A 是对角阵。线性代数的研究,是把向量和矩阵作为一个整体,从部分的性质出发,推到出整体的性质,再由整体的性质得到各种应用和物理上的概念。当矩阵 A 是一个符号的时候,它的性质会和实数 a 有很多相似的地方。科学的定理看起来总是递归着的。再举一个例子,高数的基本概念有微分,积分,倒数,那么我立刻可以想到中值定理就应该有 3 个,形式上分别是微分,积分和倒数。3. 应用的场景线性变换的缺点:线性变换 PCA 可以用来处理图像(可以搜一下百度有详细的介绍)。如 2 维的人像识别:1. 我们把图像 A 看成矩阵,进一步看成线性变换矩阵,把这个训

11、练图像的特征矩阵求出来(假设取了 n 个能量最大的特征向量)。用 A乘以这个 n 个特征向量,得到一个 n 维矢量 a,也就是 A 在特征空间的投影。2. 今后在识别的时候同一类的图像(例如,来自同一个人的面部照片),认为是 A 的线性相关图像,它乘以这个特征向量,得到 n 个数字组成的一个矢量 b,也就是 B 在特征空间的投影。那么 a 和 b 之间的距离就是我们判断 B 是不是 A 的准则。不过,PCA 有天生的缺点,就是线性矢量的相关性考察有“平移无关性“优点的同时,也完全忽略了,2 维图形中,矢量分量之间的顺序是有意义的,顺序不同可以代表完全不同的信息。还有,就是图像B 必须是 A 的

12、某种伸缩(由特征向量空间决定的),才能被很好的投影到 A 的特征向量空间里面,如果 B 包含了 A 中的某种旋转因素,那么 PCA 可以彻底失效。所以实际应用中 PCA 的方法做图像识别,识别率并不高,它要求图像有某种严格的方向对齐和归一化。所以PCA 一般不用来做直接的特征提取而是用来做特征矩阵的降维。当然,降维的结果用于分类并不理想,我们可以进一步做最小二承法拉开类间距离的 Fisher 变换。但是 Fisher 变换会引入新的弱点,那就是对于训练类别的数据变得更敏感了,分类效果上升的代价是通用性下降,当类型数量急剧膨胀的时候,分类效果的函数仍然是直线下降的-但是还是比直接 PCA 的分类

13、效果好得多。PCA“主观“的认为,一个类型的第 N+1 个矩阵可以由之前已知的1,N个矩阵通过拉成向量来线性表出。显然这只是一个美好的主观愿望,因为即使新的输入矩阵是原有矩阵作了一些行列的初等变换如交换等,这种拉直以后的线性表出也可能根本就不存在(2 维的 PCA 同样无法克服这个客观不存在的设定),于是,当应用到实际的时候,只能试图做优化没,用最小二乘距离来判定,“认为“那个矩阵就是属于某个分类。由于 PCA 训练的特征矩阵是一个类别一个矩阵,这些矩阵构成的子空间之间又无法保证正交,于是投影的结果也不具有根本意义上的分类特性。这个算法是个实用的算法,但是理论上根本就是无解。K-L 变换是 P

14、CA 的一个应用形式。假设图像类型 C 有 N 个图像,那么把每个图像拉直成一个向量,N 个图像的向量组成一个矩阵,求矩阵的特征向量(列向量)。那么用原来的 N 个图像乘以这些列向量求出平均值,就是我们的特征图像。可以看到特征图像和原图像有相似的地方,但是去掉了和拉伸,平移相关的一些形变信息。在得到了鲁棒性的同时,牺牲了很多精确性。所以它比较适合特定范围图像的 Verification 工作,也就是判断图像 P 是不是属于类型 C。对比一下神经网络:说白了把函数 y=f(x)的映射,变成了y=f(x)的向量映射。输入输出的点(entry)是固定的。而真实的神经系统,并没有明显的内部处理和外部接

15、口的区分。所以所有的神经网络理论,名字上是神经网络,实质上,差得很远。4. 关于谱什么是“谱“(Spectrum)? 我们知道音乐是一个动态的过程,但是乐谱却是在纸上的,静态的存在。对于数学分析工具,研究时变函数的工具,可以研究傅立叶变换对应的频率谱;对于概率问题,虽然每次投色子的结果不一样,但是可以求出概率分布的功率谱密度。数学作为一种形而上学工具,研究的重点,就是这个变化世界当中那些不变的规律。5. 能用于分类吗所谓的特征矩阵,就是原矩阵如何与一个 x 维的数量矩阵相似。Lamda(i)说明了相似投影与一个 x 维线性空间的第 i 维坐标轴,Lamda(i)是放缩比例。Lamda(i)之间

16、的顺序是不重要的,因为坐标轴之间的交换是初等线性变换,不影响代数拓扑的性质。特征向量xi 表明 A 如何把线性组合投影到一个坐标轴上。所谓的特征向量,就是一组正交基集合。在图像处理的问题域中,把图像看成矩阵本身,那么图像的分类问题就是同类矩阵被认为有相同或者代数近似的“不变量“。显然,“同类“是一个主观假设划定的类,而不是通过计算来“确定“的类。这导致了一个问题,所谓的不同类型,其意义是对于人的主观理解能力而言,是先验的,不是通过计算得到的后验,它本身不代表任何数理逻辑上的可判定信息。如果以矩阵的特征向量或者特征值矩阵作为分类的信息,没有任何证据能够避免不同的“类“的矩阵能够有更加近似的特征值。所谓的矩阵分解方法,类内最小距离方法(Fisher),都有一个令人不愉快地前提,那就是本身就要保证类内的矩阵,其欧式距离足够小-这个欧式距离的大小往往又和人的几何拓扑直观不符)。由于矩阵本身不具有预定义的拓扑学信息,那么同类图像间欧式距离增加的时候,无法做到良好的分类。同时,图像的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号