为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

脱机手写体汉字识别中细化、特征提取和相似字识别算法研究

2019-02-20 9页 doc 26KB 30阅读

用户头像

is_314871

暂无简介

举报
脱机手写体汉字识别中细化、特征提取和相似字识别算法研究脱机手写体汉字识别中细化、特征提取和相似字识别算法研究 中文信息处理 汉字象形文字汉字的输入编码方案(拼音,五笔等)人机交互 OCR系统有:TH—OCR、BI—OCR、SY—OCR 汉字识别能否通过市场这一严峻的考验,主要取决于两个重要因素: 识别方案是否具有较好的抗干扰能力,是否能适应实际应用环境中各种干扰噪声的影响,并保持较高的识别正确率,满足实际应用的要求 识别系统是否可以根据用户和市场的需求,不断及时地改进系统的性能指标和使用环境,从而在激烈的市场竞争中取得一席之地。 目前,印刷体汉字的识别率已经达...
脱机手写体汉字识别中细化、特征提取和相似字识别算法研究
脱机手写体汉字识别中细化、特征提取和相似字识别算法研究 中文信息处理 汉字象形文字汉字的输入编码(拼音,五笔等)人机交互 OCR系统有:TH—OCR、BI—OCR、SY—OCR 汉字识别能否通过市场这一严峻的考验,主要取决于两个重要因素: 识别方案是否具有较好的抗干扰能力,是否能适应实际应用环境中各种干扰噪声的影响,并保持较高的识别正确率,满足实际应用的要求 识别系统是否可以根据用户和市场的需求,不断及时地改进系统的性能指标和使用环境,从而在激烈的市场竞争中取得一席之地。 目前,印刷体汉字的识别率已经达到了99%以上,联机手写体汉字的识别率已经达到了99%,但是脱机手写体汉字的识别率较低,还不能满足社会的迫切需求 目前的脱机手写体汉字识别系统存在的主要问题有: 识别结果受图像质量影响较大 预处理和后处理在系统中的作用还需要不断加强 对于自由书写汉字的识别仍然不能令人满意 提取的特征区分能力较弱,难以适应不同字型的变换 典型的脱机手写体汉字识别系统由前段数字化输入装置、预处理系统、识别系统和后处理系统四大部分组成 进行脱机手写体汉字识别时,首先用输入装置将写在介质上的原始文本通过光电扫描仪等输入设备转换成二维图像信号(可以是灰度图像或二值图像):然后进行行、字切分,将整页版面的原始图像先按书写行分割开后从每行中切分出单个汉字图像,送入单字识别部分进行处理。单字识别依次包括预处理、特征提取、匹配识别。其中,预处理通常有大小归一化、二值化、平滑、细化等:特征提取是从预处理后的图像中按一定的方式获取代表汉字特征的一组向量;最后,将汉字特征向量与模板特征向量按一定的原则进行匹配判决,以此确定待识汉字的类别。单字识别完成后对识别结果进行后处理,即对单字识别的结果利用语言知识等上下文先验信息进行确认或纠错。 (1)手写体汉字风格众多,随意性较大,几乎无规律可循。特别市对于脱机手写汉字, 不同的书写风格导致的汉字的变形差别很大,即使是同一个人使用不同的书写笔或 纸张等写出来的笔画也可能不一样。具体表现在: 1、基本笔划变化,包括横不平、竖不直、直笔变弯、折笔的拐角变成圆弧等; 2、笔划模糊,不,连笔部分断开了,不是连笔的地方却相连 3、笔划与笔划之间的相对位置发生了变化 4、笔划的倾斜角、笔划的长短、相对大小等发生了变化 (2)汉字集合中相似字较多,很多汉字的差别仅为一点或一笔划,例如“大、犬、太”、“人、入”、“土、士”、“乌、鸟”、“己、已、已”等,并且由于手写变形的问题较普遍,所以手写体中相似字的区分比印刷体要困难得多。 (3)汉字字形结构复杂,笔画最多的汉字有36划,汉字的平均笔划则为11划,由于笔划多,使得较多汉字的结构十分复杂。特别市由于不同的人有不同的书写习惯,导致复杂的汉字结构难于识别 脱机手写体汉字识别处理的仅是一些经过各种光电仪器扫描得到的二维汉字点阵图像,不含任何实时信息。这是脱机手写体汉字识别本质特征之一,也是脱机手写体汉字识别与联机手写体汉字识别的本质区别之一。 细化,特征提取,相似字识别算法,匹配算法 汉字的细化处理非常重要,因为在二值化点阵图像中,对识别有价值的汉字特征信息主要集中在汉字骨架上,细化后的汉字骨架能保留原汉字大部分特征,有利于特征提取。细化后骨架的存储量比原汉字二值化点阵要少得多,降低了处理工作量。但是传统的细化算法往往会造成新的畸变,增加了对识别的干扰和困难,且算法本省也较耗时 汉字细化的基本要求: 保持原有笔划的连续性,不能由于细化造成笔划断开 细化结果为单线,即细化后笔划宽度只有1bit 保持原有字符的拓扑,集合特征,不应产生严重的畸变 基于模板的细化算法时间复杂度较大(因此要再细化结果和细化速度之间进行权衡、折中,即模板不能太多,尺寸不能太多与结果要求相反) 基于脊形点的细化算法基本思想先对原始图像进行非线性变换,将二维空间变换到三维空间,而后在变换得到的三维空间中寻找脊形点,并用一个隶属函数对脊形点赋值,最后算法根据对脊形点的赋值,选取有效的脊形点作为笔段的端点,连接成字符的笔划骨架,以此完成对汉字字符的细化,能较好地处理粘连字符的切分,可能存在毛刺和胡须的现象 传统的细化算法,汉字图像细化后都会对笔画结构产生不良影响,包括:交叉笔画畸变、转折处出现分叉笔划、失去短笔段和笔划合并等 特征应具有的特点: 对不同类别的汉字来说,他们的特征值应具有明显的差异 同类的汉字的特征值应比较相近 所使用的各特征之间彼此不相关,具有独立性 由于汉字识别系统的复杂度将随特征个数的增长而迅速增大,因此要求提取的特征数量少 特征分为三类:统计特征(全局特征和局部特征)、结构特征、两者的结合 全局特征: 全局变换特征:对汉字图像进行各种变换,利用变换系数作为特征,常用的变换有二维傅里叶变换(2—D fourior transformation)、哈达玛变换(Hadam Transformation)、快速变换(Rapid Transformation)、霍夫曼变换(Hough Transformation)等 不变矩(Moment)特征:一种线性特征,因其在尺度、平移和旋转等条件下的稳定性而被广泛应用于模式识别领域 笔划穿透数目特征 全局笔划方向特征:这种特征反应了在整个汉字点阵中笔划的复杂度、方向及连接关系背景特征:汉字图像的空白部分和周围笔划的关系也含有一定的结构信息,提取背景点在各个方向的笔画密度作为背景特征,通常可选取位于汉字图像两对角线上的背景点 全局特征方法的优点是对字符的局部畸变不敏感,缺点是会忽略某些重要的局部信息,尤其在区分相似字符时,还可以利用投影方法急性全局特征量统计。易提取、计算快,可以作为粗分类的依据 局部特征方法 提取时不利用汉字的结构信息,而且任何一种特征的计算都只限于字符图像中一个局部的区域范围之内,即通过提取局部图像的信息来组成描述汉字的特征,或者将汉字点阵图像分割成不同区域或网格,在各个小区域内分别抽取统计特征包括: 局部笔画方向特征 细胞特征 相补特征 方向线素特征 Gabor特征:gabor函数能够最好地兼顾信号在时域和频域中的分辨能力,用gabor函数形成的二维gabor滤波器咋分析数字图像中局部区域的频率和方向信息方面具有优异的性能 四角特征 根据抽取特征的不同,可以选用不同的匹配方法,常用的匹配方法有模板匹配、相关匹配、树分类器等 常用的距离度量有欧氏距离、城市块距离、马氏距离等 结构特征法 代表了汉字的本质特征,只有利用汉字的结构特征才能唯一地确定每个不同的汉字 结构特征法事对字符集中的每个字符生成一个结构模型,这种结构通常是自底向上的(Bottom to Top,BoT),即通过像素—笔段—笔划—部件—汉字的方式来完成汉字的构成,通过各元素之间构成的方式可以推到出一个汉字 特征点,笔段,笔划,部件是纯粹的结构特征,可以作为结构分析的基元 特征点是最基本的结构信息,包括端点、交叉点、断点和拐点,他们都是笔划上的点。汉字背景上的若干关键点也可以成为一个汉字的特征点,这些关键点常用来区分不同的汉字比特征点高一个层次的结构信息室笔段,一般把笔段分成横、竖、撇、捺四种,通常用起点(中间点)坐标,笔段长度和倾角来描述笔段。从汉字中提取笔段比笔划容易,常用方法有细化折线法、搜索笔划方向法等 笔划又比笔段高一个结构层次,笔划约有38种,一般把笔划分成基本笔划和复杂笔划两类。笔划序列以人的书写方法为依据,在抽取笔划时,沿着每个笔迹进行笔划抽取,以此获得汉字的笔划结构特征。用笔划构造汉字比笔段更简洁,但是,抽取笔划特征也更困难。目前很多算法均采用细化后抽取笔划,或直接从二值化点阵中搜索抽取笔划,或者先抽取特征点,笔段,再根据一定规则连接笔划的方式 比笔划在高一个层次的结构师部件,部件是汉字结构的基础,是汉字的基本单位,成千上万的汉字是由几百个部件组合起来的,但部件的识别和分离都较困难,故其较少的被使用。 相似字识别 相似字集是一个模糊的概念,国标一级汉字集合范围内有30%的相似字,高频字中的相似字高达50%左右。汉字相似字约有200个,汉字中单体字较少,多数是汉字由偏旁和部件组成的合体字。 相似字的识别主要有三种方法:神经网络、支持向量机和部分空间法;前两者适用于较小规模分类,在小规模分类中有着较强的分类能力,但神经网络缺少严密的数学解释,本身具有一定的缺陷——如无法避免局部极值问题等,而支持向量机是根据统计学习理论提出的一种学习方法在模式识别、回归分析和特征提取等发面得到了较多的应用,部分空间法是相似字识别中较原理性的方法(即在识别时重点比较相似字之间的差别部分并对他们进行区分)。 脱机手写体汉字识别中基于字符边界的细化算法研究 字符细化是通过一定的处理算法将字符重要的像素点保留下来,去除无关紧要的点,得到字符笔划骨架的技术。细化处理能极大地消除字符图像中的冗余点,使计算机在分析处理、识别时不受笔划粗细的影响,快速地接触到本质内容,减少运算量,从而缩短识别的时间。字符图像细化结果的好坏将直接影响到字符特征提取的准确与否,最终营销懂啊整个字符识别系统的识别率。 Hilditch算法 从细化的效果来看,在识别字形随意、笔划边缘不甚平滑的手写体字符时,Hilditch 算法得到的细化结果有严重的扭曲变形,有的甚至缺失部分笔划或关键部位信息被抹去,经改进,将串行算法转化为并行算法,仍难于排除撇捺方向交叉笔划的畸变Rosenfield算法 产生很多断点,细化后的笔划不连贯,进过改进后的Rosenfield算法人不能改变断点过多这一缺陷 FPTA快速细化算法 SPTA细化算法 基于边界的字符细化算法(ETAB) 基本思想是每一步都针对单个像素点操作,从上到下、从左到右进行横扫描,记录下所有首次检测到的笔划竖向的像素点;对于横扫描检测到的横向笔划作一定的限制扫描,以避免记录笔划上下两个边缘,并去除笔划宽度带来的影响;最后利用原有的字符图像中笔划的连接关系,使断开的笔段连接起来,以避免字符细化后的字型畸变。
/
本文档为【脱机手写体汉字识别中细化、特征提取和相似字识别算法研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索