RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论
当前位置 :| 首页>人工智能>模式识别>

SVM在脱机手写汉字识别中的应用

来源: 作者:unkonwn 时间:2004-12-04 点击:

1.   引言

汉字是非字母化的文字,在当今高度信息化的社会里,如何快速高效地将汉字输入计算机,已成为影响人机接口效率的一个重要瓶颈,也关系到计算机能否真正在我国得到普及应用。因此,进行汉字识别的研究与开发,使汉字输入自动化,具有广泛的应用前景和重大的经济价值。 数据挖掘实验室

汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分为联机(on-line)手写汉字识别和脱机(off-line)手写汉字识别。其中又以脱机手写汉字识别最为困难。

主要表现在:

数据挖掘研究院

数量多由于汉字数量众多,一级汉字有3755个,二级汉字有6763个。汉字识别问题属于超多类模式集合的分类问题

数据挖掘研究院

变形大印刷体汉字有宋体、楷体、黑体、仿宋体、圆体等字体,手写体汉字更是因人而异,一人一个写法,而且同一个人在不同的时间书写的汉字也不尽相同 数据挖掘研究院

相似字人、入;已、己等等。

 

数据挖掘研究院

2.   算法

SVM(Support Vector Machine)或称支撑向量机是在统计学习理论基础上发展起来的一种新的通用的模式识别方法。本文提出的采用基于SVM的分类决策方法,在小字符集脱机手写体汉字识别问题中,取得了较好的效果。 数据挖掘研究院

SVM算法的基本思想是根据Vapnik提出的结构风险最小化(Structure Risk Minimization)原理,通过最大化分类间隔或边缘(Margin)尽量提高学习机的泛化(Generalization)性能。下面对SVM算法做一简要介绍。

数据挖掘研究院

  数据挖掘研究院

2.1 最优分类面 数据挖掘实验室

设线性可分样本集(Xi,Yi),i=1,…,n,XRd,Y{+1,-1}是类别标号。D维空间中线性判别函数一般形式为g(X)=W·X+b,分类面方程为:W·X+b0,将判别函数归一化,使得两类所有样本都满足|g(X)|1,即使离分类面最近的样本的|g(X)|1,这样分类间隔就等于2/W,因此使间隔最大最大等价于‖W‖(或‖W2)最小;而要求分类线对所有样本正确分类,要求满足 数据挖掘研究院

Yi[(W·Xi)+b]-10,i=1,2,…,n 数据挖掘实验室

满足上述条件且使‖W2最小的分类面就是最优分类面,过两类样本中离分类面最近的点且平行于最优分类面上超平面H1H2上的训练样本就是上式中使等号成立的样本,称为支撑向量(Support Vectors)。因为他们支撑起了最优分类面。

数据挖掘实验室

 

数据挖掘实验室

其中分类间隔最大的超平面称为最优分类面。

它通过选择训练一组称为支持向量(Support Vectors)的特征子集,使得对支持向量集的线性划分等价于对整个数据集的分割,实现了在保证分类精度的同时降低运算的复杂度。简单地说,支撑向量就是支撑最优分类面的向量。 数据挖掘研究院

当问题线性不可分时,通过非线性变换到高维空间中的线性问题。非坐标变换,而只改变内积的定义,避免了维数灾难。 数据挖掘研究院

  数据挖掘研究院

3.   特征提取

为了增大各样本之间的区分性。采用三种方法提取特征。即外围轮廓法、投影法(笔划密度特征)和网格点阵法。每个汉字样本在特征提取以前先进行预处理,包括位置归一化、大小归一化和细化。 数据挖掘实验室

3.1外围轮廓特征

针对规格为24x24的二值图像汉字样本,按先后顺序从左、右、上、下四边分别向右、作、下、上四个方向扫描,直至扫描线遇到汉字象素点或与扫描线垂直的中轴,记下各自扫描线走过的距离,即为该汉字样本的外围轮廓特征。显然,是一24x496维的特征。之所以,扫描到中轴就停止,而不是扫描到底,是因为这样可以防止冗余信息。 数据挖掘研究院

3.2投影特征(笔划密度特征)

针对规格为24x24的二值图像汉字样本,按先后顺序从左、上两边分别向右、下两个方向扫描,记下扫描线所穿过的汉字笔划数,即为该汉字的投影特征。这是一个24x248维的特征。优字的垂直投影和水平投影分别如图所示:

  数据挖掘实验室