![人工智能:模式识别](https://wfqqreader-1252317822.image.myqcloud.com/cover/23/33381023/b_33381023.jpg)
2.4 二维主成分分析
众所周知,主成分分析(PCA)是线性特征抽取的最为重要的技术之一,广泛应用在人脸等图像识别领域。采用主成分分析技术进行人脸识别的最为著名的方法是Turk和Pentland所提出的Eigenfaces[23]方法(特征向量转化为图像显示,像一张人脸,故称为特征脸,即Eigenfaces)。尽管Eigenfaces方法在性能上有着不错的表现,但其弱点也是明显的。这是因为传统的PCA是基于图像向量的,图像向量的维数常常高达上万维。尽管利用奇异值分解定理可在一定程度上加速St的特征向量的求解速度,但整个特征抽取过程所耗费的计算量还是相当可观的。
受Liu[24]代数特征抽取思想的启发,本节提出了一种直接基于图像矩阵的PCA方法:二维主成分分析(Two-Dimensional PCA,2DPCA)[25,26]。该方法在处理图像识别问题时,不需要事先将图像矩阵转化为图像向量,而是直接利用图像矩阵本身构造所谓的图像总体散布矩阵,然后取它的d个最大特征值所对应的标准正交的特征向量作为投影轴即可。在标准人脸图像库上的试验结果表明,所提出的方法不仅在识别性能上优于基于传统PCA的Eigenfaces方法,而且大幅度提升了特征抽取的速度。
设X为一个m×n型的图像矩阵,ζ为一个n维单位列向量,我们的思想是将X通过以下线性变换直接投影到ζ上。
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_1.jpg?sign=1739294373-7L0SLREV5iuNCHNugGUA3XAvSSfq7aAy-0-f1ecb801204768d83942e6d51f8d8378)
于是,得到一个m维列向量Y,称为图像X的投影特征向量。那么,究竟往哪个方向投影呢?事实上,可以通过投影特征Y的散布情况来决定投影方向ζ。在此,我们采用以下准则
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_2.jpg?sign=1739294373-E1X2yl2XSymGShPHacb61L5ep26C1ILG-0-49922a766588989f539ed3f8b17211e8)
式中,Sy表示投影特征Y的总体散布矩阵。最大化准则式(2-57)的直观意义是,我们将寻找这样的投影方向ζ,使得投影后所得特征向量的总体散布量最大。Sy可表示为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_3.jpg?sign=1739294373-ajlN0CXbeEXlZpQzXBHqQf2MUkwCcyAa-0-eca615241c2c7cc1f6c3a355a9237137)
则总体散布量为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_4.jpg?sign=1739294373-VOImoSNf7AsfhgSkZfYXlxiix2F3SMNh-0-a49026f1990b387309a22e07aece5c21)
定义以下的图像总体散布矩阵
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_53_5.jpg?sign=1739294373-E7LOBXuIzTQXYKucDqR9qbffzmMI0Ee0-0-ac24be20afc6ffdcdfffcdb80883686f)
由此定义,易证明Gt为n×n型的非负定矩阵。
故式(2-57)中的准则函数为
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_1.jpg?sign=1739294373-okPPOhCnX0Y4qhtjWgRu16aKXdOk9zYe-0-5f2a84d9b87e5c99c90f06419a2d8ac3)
该准则称为广义总体散布量准则。最大化该准则的单位向量ζ称为最优投影轴,其物理意义是,图像矩阵在ζ方向上投影后所得特征向量的总体分散程度最大。事实上,该最优投影轴即图像总体散布矩阵Gt的最大特征值所对应的单位特征向量。
一般来说,在样本类别数较多的情况下,单一的最优投影方向是不够的,我们希望寻找一组满足标准正交条件且极大化准则函数式(2-61)的最优投影轴ζ1,…,ζd。
由于准则函数式(2-61)等价于
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_2.jpg?sign=1739294373-mWFbkYXumEV8Ws8KUo5tolT8WkDj5xED-0-6242d08fa75f6ef7952c3a0ecb71dcab)
式(2-62)即为矩阵Gt的瑞利商,由瑞利商的极值性质[14],最优投影轴ζ1,…,ζd可取为Gt的d个最大特征值所对应的标准正交的特征向量。具体地讲,设Gt的特征值满足λ1≥λ2≥…≥λn,且对应的标准正交的特征向量为ζ1,…,ζn,则最优投影轴取为前d个ζ1,…,ζd。
基于最优图像投影轴ζ1,…,ζd,令
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_3.jpg?sign=1739294373-utkdIdLcaJTnWk3pm9zCGYeyW53nyljz-0-a990b14e177a92bfbd61157fd5585311)
则得到一组m维图像投影特征向量Y1,…,Yd,它们可合并为图像X的一个N=md维整体投影特征Y:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_54_4.jpg?sign=1739294373-DGdMnnp33jbcCTRyHkUbUHa9FsuVeRRf-0-66865c1389ac568890973d6b769cbe52)
Y可以用于随后的分类识别。
接下来介绍基于2DPCA的图像重建。
在特征脸方法中,由特征脸和主成分的加权组合可以重构人脸图像。类似地,2DPCA也可以实现人脸图像的重建。
设ζ1,…,ζd为2DPCA的一组标准正交的投影轴,图像X在这组投影轴上投影后,得到图像投影特征向量为Yk=Xζk(k=1,2,…,d)。令
V=[Y1,…,Yd],U=[ζ1,…,ζd]
则有
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_55_1.jpg?sign=1739294373-vu4I1rEa8u48JK4rbboMrYwGCaQDLxdZ-0-b46a8a62f3339e500a8dcf7a7fd2d722)
由于ζ1,…,ζd是标准正交的,由式(2-65)容易得到图像X的重建图像:
![](https://epubservercos.yuewen.com/9974CD/17829663608312006/epubprivate/OEBPS/Images/39215_55_2.jpg?sign=1739294373-GNul6CRn5B0x5gBQwOn9hMPe4obALQjr-0-f0cf3a0afac1a04f628575e4e4828512)
每个,与图像X具有相同的大小,构成X的重建子图,通过这些子图的相加可以近似地重建图像X。若选取d=n个主成分向量,其中n是Gt的特征值的总个数,则有
,即实现X的无损重建。否则,若d<n,重建图像
是原始图像X的近似。