摘要:提出了基于贡献矩阵的特征提取方法。首先采用基于结构分析的统计方法构造贡献矩阵,利用贡献矩阵对图像预处理;通过二维主成分分析方法提取图像特征。将此算法用于微钙化点图像特征提取,利用支持向量机分类器件进行分类。实验结果表明,该算法加快了训练速度,同时有效地降低了微钙化点检测的假阳性。
关键词:支持向量机 贡献矩阵 二维主成分分析 特征提取 微钙化点检测
一般认为,特征越多,描述图像越充分,超能反映事物的内涵。然而,获取特征数据不仅需要大量的测量设备和时间,样本存储占用的空间和数据处理的计算量也急剧增长,而且,还有一些对分类来说是冗余和甚至不相关的特征会影响分类速度和分类器的泛化能力。在低维特征空间描述图像,是特征提取需要解决的问题。
主成分分析pca(principal component analysis)是一种常用的特征提取方法。它依据特征值的大小选择特征向量,消除了特征向量间的相关性,从一定意义上体现了特征向量中不同维对识别结果贡献大小的不同。但是至今还没有理论证明特征值大的特征向量对分类结果的贡献大,而且这仅仅是体现在特征向量的代数特征上,不能够充分利用特征向量的几何与结构分布的特点。为了更有效地选择特征,人们已经提出了多种改进方法。文献提出了一种基于粗糙集理论的主成分分析方法,文献提出了一种基于遗传算法的主成分分析方式,文献提出了通过反馈监督学习反复调整特征子空间的方法。为了改善分类效果,选择更有利于分类的特征,本文提出基于贡献矩阵的二维主成分分析方法。首先利用贡献矩阵对图像预处理,通过二维主成分分析方法提取图像特征,最后利用支持向量机分类器检测微钙化点。
1 基于贡献矩阵的微钙化点检测
1.1 贡献矩阵
通过对微钙化点检测问题的实验发现,不同的特征向量对检测结果的影响是不同的。为了更好地利用特征向量解决不同问题,本文引入了贡献矩阵。贡献矩阵和原始特征矩阵维数相同,且该矩阵的每一维数据反映了原始特征向量的该维分类结果的贡献大小,用该矩阵对原始特征向量进行预处理。
产生经验矩阵的方法有:(1)经验分析尖,取决于人的经验,无法通过计算机自动确定;(2)基于结构分析的统计方法,通过对大量图像的几何特征的分布进行分析,对乳腺x图像中的目标进行定位、边缘提取,通过统计确定出每一部分对分类贡献的大小,从而确定贡献矩阵;(3)反向优化算法,根据前两种方法确定一个初始的贡献矩阵,然后按照这个初始值对样本处理,求出分类结果,反过来根据分类结果修正贡献矩阵,最后得到一个优化的贡献矩阵使分类效果达到最好。
本文采用第二种方法构造贡献矩阵。由于微钙化点是一些相对周围区域灰度值较高的亮点,故在微钙化点检测问题的分类中起重要作用的是相对领域的亮点,对应贡献矩阵中较大的贡献系数,对于其他的像素,应赋予较小的贡献系数。
1.2 二维生成分分析
经典的主成分分析是基于一维向量,这里采用直接针对二维图像数据的二维主成分分析方法。
令x为n维单位列向量。a为m×n的随机矩阵,通过线性变换
y=ax (1)
得到图像a映射的特征向量。为了得到一个最优的映射向量,引入映射样本的总类分散度来度量映射向量x的判别力。用映射特征协方差矩阵的迹来描述总类分散度。采用准则
j(x)=tr(sx) (2)
其中sx为训练样本的映射特征向量的协方差矩阵,tr(sx)表示sx的迹。最大化上述准则的物理意义就是找到映射方向x,将所有样本映射该方向之后能够使映射样本的总类分散度量大。协方差矩阵sx定义为:
sx=e(y-ey)(y-ey)t (3)
=e[ax-e(ax)][ax-e(ax)]t
于是
tr(sx)=x t[e(a-ea)t(a-ea)]x (4)
定义图像a的协方差矩阵gt
gt=e[(a-ea)t(a-ea)] (5)
从定义很容易证明gt是非负的,而且可以直接从图像训练样本得到。假设共有m办公桌训练样本,第j个样本记作m×n维矩阵aj(j=1,2,…,m),所有样本的平均图像记作a’,这样
准则(2)改写为:
j(x)=xtgtx (7)
最优映射轴xopt是最大化jx的单位向量,就是gt 对应最大特征值的向量。一般说,只有一个最优轴向是不够的,通常需需要要选择映射轴向的一个子集,即最大化jx的一组正交向量x1,x2,…xd
实际上,最优映射轴x1,x2,…,xd就是gt对应前d的最大特征值的特征向量。
1.3 特征提取
利用最优映射向量提取图像特征,对于一个给定的图像样本a,
yk=axk,k=1,2,…,d (9)
这样得到一组映射的特征向量y1,y2,…,yd,称作图像样本的主成分。需要指出的是二维主成分分析的第一个主成分都是矢量,而一维主成分分析的是标量。b=[y1,y2,…,yd]为图像的特征,用作后续分类器的输入。
1.4 支持向量机
支持向量机以结构风险最小化代替常用的经验风险最小化作为优化准则,可以在理论上取得更好的泛化性能。下面以两类模式的分类为说明其基本原理。
设样本集(xi,yi),i=1,2,…,n,yi∈{+1,-1},其中yi是模式xi的类别标号,通过满足mercer条件的核函数k(u,v)将输入模式映射到一个更高维特征空间h中,在此高维空间求取一个线性分类面,使两类距离最大(称为最优线性分类面)。
这相当于求解约束条件下的二次化问题
其中c是对线性不可分样本的分类错误的惩罚因子,αi为每个结束条件对应的lagrangian乘子。
求解上述二次优化问题,可以从训练样本中得到一系列对应αi≠0的向量,这些特片向量称为支持向理,分类面由这些向量决定。
其中sv为支持向量。
核函数的选择决定了高维特征空间h的结构,常用的函数有三种:
多项式核函数
k(x,xi)=[(x·xi)+1] q (13)
rbf(radial basis function)核
k(x,y)=tanh(v(x·xi)+c) (15)
1.5 算法描述
本文采用分等级的微钙化点检测:预处理、感兴趣区域提取和钙化点检测。预处理包括图像增强和去噪。通过提取感兴趣区域,可以去除大量不含钙化点的区域,提高训练速度和分类精度。通过感兴趣区域中钙化点的检测,可以得到微钙化点。感兴趣区域的提取以及微钙化点的检测问题都是分类问题,即将包含钙化点的区域和不包含钙化点的区域或者钙化点与非钙化点区分开。本文使用支持向量机进行分类。下面详细介绍感兴趣区域的选取部分,分为两个阶段:训练阶段和测试阶段。
1.5.1 训练阶段
(1)对每一幅感兴直到区域(设为p×q维)和非感兴趣区域(p×q维)的图像样本,利用图像统计特征计算贡献矩阵d,且维数与图像相同。图像的统计特征本文采用统计平均值:
对图像中的每个像素,首先计算其2m+1邻域灰度均值,根据该像素的灰度值与该均值的差值大小给贡献矩阵对应的贡献系数赋值dij,且0
(2)利用贡献矩阵对训练样本图像预处理。这里定义一种运算
b=a×d=(aij×dij) (17)
即图像各像素与贡献矩阵中对应位置的贡献系数相乘。
(3)由公式(6)、(8)、(9)利用二维主成分分析提取图像特征,作为支持向量机的输入向量。
(4)训练支持向量机,保存最优分类面参数。
1.5.2 测试阶段
(1)对测试样本用大小p×q的窗口,x方向以步长p2,y方向以步长q/2遍历,对窗口选定的每一个区域利用图像统计特征计算贡献矩阵。
(2)利用贡献矩阵对测试样本图像预处理。
(3)利用二维主成分分析提取图像特征。
(4)调用训练好的支持向量机对测试样本分类。本实验使用rbf该函数(见公式(14),σ=5,c=1000。
微钙化点的检测,基本步骤如下,只是提取的特征不同。提取的钙化点的特征包括面积、对比度和从srdm(surround region dependence matrix)提取的四个方向的加权和,作为支持向量机的输入向量。
2 实验结果
本文对100幅乳腺x图像作为训练样本,并对其他9幅测试样本进行测试,实验结果如表1所示,给出了每个测试样本中微钙化点mc(microcalcification)的真实个数、检出个数以及假阳性fp(false positive)。与主成分分析提取特征相比,本文提出的特征提取方法,运算速度提高3倍以上。而且随着样本数量增多,本文提出的基于贡献矩阵的二维主成分分析比经典主成分分析具有更显著优势。表1 9例测试样本微钙化点检测结果
真实mc个数检出率fp120100%223497.1%332696.2%442391.3%357100%062295.5%3717100%2838100%492095.0%3本文提出了基于贡献矩阵的二维主成分分析特征提取方法。首先,与经典的对向量运算的主成分分析方法不同,二维主成分分析方法是直接针对二维图像数据的,因而大大减少了计算量,加快了运算速度。而且,贡献矩阵是根据特征向量对分类结果的影响大小来确定的,用来对图像预处理,可以弥补经典主成分分析仅仅基于特征值大小选择特征的不足,选择更加有利于分类的特征。乳腺x线图像中微钙化点检测的实验结果验证了自满的可行性,在保证检测精度的前提下,大大提高了运算速度。
『本文转载自网络,版权归原作者所有,如有侵权请联系删除』