工业控制 > 工业自动化 > 详情

基于多特征SVMs分类器的手语识别的研究

发布时间:2024-06-25 发布时间:
|

引言

手语识别的目的就是通过计算机提供一种有效的、准确的机制将聋哑人常用的手语手势识别出来,使得他们与健全人之间的交互变得更方便、快捷。同时,手语识别的应用还可以提供更自然的人机交互方式,方便聋哑人对计算机等常用信息设备的使用。目前手语识别可以分为基于视觉(图像)的识别系统和基于数据手套(佩戴式设备)的识别系统。基于视觉的手势识别系统采用常见的视频采集设备作为手势感知输入设备,价格便宜、便于安装。鉴于基于视觉的手势识别方法交互自然便利,适于普及应用,且更能反映机器模拟人类视觉的功能,所以目前是手势识别的研究重点。

手语识别的研究开始于1982年,Shantz和Poizner实现了一个合成美国手语的计算机程序。之后,中国、美国、日本、德国等许多国家都进行了自己国家的手语识别与合成研究,并取得了许多重要的研究成果。Triesch和Malsburg开发了一种弹性图模板匹配技术对复杂背景下的手形进行分类[1],在相对复杂的背景下的识别率达到86.2%。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入,可识别7种手势[2]。Starner[3]等在对美国手语中带有词性的40个词汇随机组成的短句子识别率达到99.2%。Yang等人采用7Hu不变矩特征量进行手语字母识别,最好识别率为90%[4]。

本文采用SVMs (Support Vector Machines,支持向量机)作为手语识别的分类器,提出了一种基于视觉的手语字母识别方法。SVMs在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。采用SVMs作为图像分类器首先要解决的问题是:如何用典型视觉特征来表征图像的不同视觉特性[5]。

在图像特征提取方面,为了能够同时表征图像的全局特性和局部特性,需要同时提取图像的全局特征和局部特征,并且这些特征中用以描述图像整体形状的特征应当具备平移、旋转和尺度不变性。SIFT(Scale Invariant Feature Transform)是一种对尺度空间、图像缩放、旋转甚至仿射不变的图像局部特征描述算子[6];而7Hu不变矩特征量具有平移、旋转和尺度不变性的特点,具有很好的稳定性,适合描述目标整体形状。

手语简介

手语是一种聋人使用的语言,是一种靠动作/视觉交际的特殊语言[7]。中国手语包括30个手指字母,大约5500个基本手势词。手指语是从字母语言发展起来的,是汉语手语的一种,用一个指式代表一个汉语拼音字母,按照汉语拼音方案拼成普通话。而手势语则是由象形语言发展起来的。它充分利用人的手势、表情和身体动作形象地表达物体和行动的最基本特征。

中国文字改革委员会、教育部等单位于1963年联合公布实施汉语手指字母方案[7]。方案中包括汉语拼音中26个单字母(A~ Z)和4个双字母(ZH、CH、SH、NG)如图1所示。


图1 中国手语字母表

SVMs

SVMs的主要思想是建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化。对于二维线性可分情况,令 H为把两类训练样本没有错误地分开的分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类正确分开,而且使分类间隔最大。在高维空间,最优分类线就成为最优分类面[8,9]。

设线性可分样本集为(xi,yi)),i=1,2,…,n,x∈Rd,即x是d维特征向量,y∈{+1,-1}是类别标号,d维空间线性判断函数的一般形式为g(x)=w×x+b,分类面方程为:w×x+b=0 (1)

式中w为权向量,b为分类阈值。要求分类面对所有样本正确分类,就是要求它满足:

Yi[w×xi+b]-1≥0,i=1,2,…,n (2)

满足上述条件且使||w||2最小的分类面就叫做最优分类面, H1,H2上的训练样本点,也就是使式(2)中等号成立的样本点,称作支持向量。解这个最优化问题后得到的最优分类函数是:

在学习样本是线性不可分,但却是非线性可分的情况下,可以通过非线性变换把学习样本变换到高维空间,使其在高维空间里是线性可分的。用核函数 K(x,y)代替原来的点积(x·y),Mercer定理指出,核函数 K(x,y)通过与其相联系的非线性变换Φ隐含地把特征向量映射到高维特征空间,使得学习样本成为线性可分的。常用的核函数有:

图像特征选取

手语图像特征的选取,会直接影响到识别的效果,因此在表示图像的不同视觉特征时本文同时提取全局视觉特征和局部视觉特征。为了避免图像分割工具可能带来的问题,在特征提取时不进行图像分割。在研究中,将提取图像的以下特征:(1)7维不变矩特征量,作为图像整体形状描述的特征向量(2)用Gabor小波提取48维的纹理特征,以表示图像的整体结构属性[10];(3)提取一定数量的兴趣点及它们的SIFT特征[11],以表示图像的局部结构特征与所包含目标的大致形状。实验表明,全局和局部视觉特征可以有效的表示出图像的主要视觉特征。

Hu不变矩特征量

利用矩不变量进行形体识别是模式识别中的一种重要的方法, Hu在1961年首先提出了矩不变量的概念。Hu首先提出代数不变矩的概念,并给出了一组基于通用矩组合的代数矩不变量。这些矩具有平移、尺度和旋转不变性,被称为Hu’s矩。

对于连续灰度函数 f(x, y),它的(p + q)阶二维原点矩Mpq 的定义为:

假设 f(x, y)为分段连续的有界函数,并且在x,y平面上有限区域内有非零值。根据唯一性定理,它的各阶矩存在且唯一地被 f(x, y)确定,反过来,f(x, y)也唯一地被它的各阶矩确定。

此外,还可以定义 f(x, y)的(p + q)阶中心矩μpq 为:

Hu首先提出了不变矩,他给出了连续函数矩的定义和关于矩的基本性质,证明了有关矩的平移不变性、旋转不变性以及比例不变性等性质,具体给出了具有平移不变性、旋转不变性和比例不变性的七个不变矩的表达式。



『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
大族激光深陷业绩寒冬.如何自救摆脱困境?