为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于网格的上中下结构汉字的结构识别研究

2017-12-26 10页 doc 28KB 11阅读

用户头像

is_358746

暂无简介

举报
基于网格的上中下结构汉字的结构识别研究基于网格的上中下结构汉字的结构识别研究 基于网格的上中下结构汉字的结构识别研 究 第21卷第6期 2007年l1月 湖南]-业大学 JournalofHunanUniversityofTechnology Vo1.21NO.6 NOV.2007 基于网格的上中下结构汉字的结构识别研究 王素利,皮佑国,梁添才,丘志文 (华南理T大学自动化科学与工程学院,广东广州510641) 摘要:采用简易网格,以GB2312规定的二级汉字基本集中的上中下 结构汉字作为研究对象,研究了汉字 的结构识别.实验表明了方法的有...
基于网格的上中下结构汉字的结构识别研究
基于网格的上中下结构汉字的结构识别研究 基于网格的上中下结构汉字的结构识别研 究 第21卷第6期 2007年l1月 湖南]-业大学 JournalofHunanUniversityofTechnology Vo1.21NO.6 NOV.2007 基于网格的上中下结构汉字的结构识别研究 王素利,皮佑国,梁添才,丘志文 (华南理T大学自动化科学与工程学院,广东广州510641) 摘要:采用简易网格,以GB2312规定的二级汉字基本集中的上中下 结构汉字作为研究对象,研究了汉字 的结构识别.实验表明了方法的有效性,并给出了分析和实验过程. 关键词:结构;网格;识别 中图分类号:TP391.12文献标识码:A文章编 号:1673-9833(2007)06-0098-03 RecognitionResearchonStructureforChineseCharacterof Up--Center--DownStructureBasedonGrid WangSuli,PiYouguo,LiangTiancai,QiuZhiwen (SchoolofAutomaticScienceandEngineering,SouthChinaUniversityofTechnology,Guangzhou510641,China) Abstract:Inviewofbriefgrid,theresearchobjectisChinesecharacteraboutup downstructureinsecondary —center— ChinesecharacterbasicsetwithinGB2312.Itstudiesrecognitionforstructure ofChinesecharacter.Theexperimentprovesthat methodisfeasibleandalsoputforwardtheexperimentprocess. Keywords:structure;grid;recognition 0引言 汉字作为世界上仅存的最古老的表意文字,字形 是它的本体?,它用形象具体的形式表达一般抽象的 内容,集中体现了中华民族的思维方式,是中华民族 集体智慧的结晶. 汉字是拼合文字,是由部件(含笔画,偏旁和部 首)按一定规则拼合而成的.汉字的部件是由笔画组 成的具有组配汉字功能的构字单位(国家语评).虽 然拼音文字也属于拼合文字,但它以首字母为起点顺 序排列,字母的竖直位置,形态和大小都不变;而 汉字在用部件组成合字时,根据汉字结构的不同,部 件的位置,形态和大小都会发生一定的变化,所以汉 字的拼合规则要比拼音文字的拼合规则复杂得多. 汉字的一级结构有:左右结构,左中右结构,上 下结构,上中下结构,全包围结构,半包围结构,整 体结构,品字结构8类.GB2312规定的二级汉字基本 集中的汉字6763个,其中上中下结构的汉字324个. 本文以GB2312规定的二级汉字基本集中的上中下结构 汉字为研究对象,研究上中下结构汉字的结构识别. 上中下结构汉字:该汉字由上中下3个或3个以 上部件组成.按照结构分,上中下结构的汉字由上部, 中部,下部组成.上中下结构汉字的结构的识别,要 求准确地识别出汉字的上部,中部,下部. 在刚刚开始学习写字的时候,一般会利用田字格 (2X2网格)和九宫格(3X3网格),如图1所示.田字 格和九宫格有助于初学写字的人对于汉字结构的认知, 根据网格的这种特点,基于传统的汉字结构的认知机 理,本文利用网格实现上中下结构汉字的结构的识别. 禺瘸 图1田字格和九宫格 Fig.1TiangridandNineGonggrid 收稿日期:2007-08-30 作者简介:王素利(1979一),女,辽宁锦州人,华南理T大学硕士生,主要研究方向为图像处理; 皮佑国(1953一),男,重庆开县人,华南理工大学教授,博士生导师,主要研究方向为智能控制理论与应用. 第6期王素利,皮佑国,梁添才,丘志文基于网格的上中下结构汉字的 结构识别研究99 1识别机理 1.1分析工具 我们采用如图2所示的2×2,3×3简易网格,及 其扩展的4×4,6×6,9×9网格来分析和描述汉字 结构引. 宙酯船崩2×2嘲格3×3网格4×4网格6×6网格9×9网格 图2简易网格 Fig.2Simplegrid 1.2识别对象分析 选取GB2312二级汉字基本集中的上中下结构汉字 作为研究对象,字体为黑体.将其放到网格中,示例 如图3所示. 画图嘲圈豳 图3网格分析示例 Fig.3GriddescriptionforstructureofChinesecharacter 上中下结构汉字的上部,中部,下部之间的界限 分别在上1/3,2/3处;上1/6,4/6处;上1/3,1/2处; 上3/6,5/6处;上1/4,3/4处;上1/4,2/3处;上1/2, 2/3处;上1/4,5/9处;上1/4,2/4处;上1/4,5/6处; 上1/3,3/4处;上1/6,5/6处;上1/4,4/9处;上1/6, 3/6处;上1/4,1/3处;上1/4,5/6处.共16种情况. 经分析表明:研究对象的上,中,下各部之间位 置关系如图4所示,分为如下4种. 1)独立:汉字各部分开为独立整体. 2)交叠:各部间无接触,但无法简单地用水平分 割线分割. 3)粘连:某部在一点或几点与相邻部接触. 4)粘连且交叠:粘连与交叠的情况并存. 鼻茶暴墓a)独立b)交叠C)粘连d)粘连且交叠 图4各部间的位置关系 Fig.4Placerelationofeverypart 汉字各部分的连通性分为: 1)上部(中部或下部)为单连通区域. 2)上部(中部或下部)为非单连通区域,它们都 处在网格的同一横向子格中,如”一,”,”<《《”“心”. 3)上部(中部或下部)为非单连通区域,它们不 处在网格的同一横向子格中,如”乡”,”穴”. 4)存在比较小的连通区域,如”,”. 2识别 对于识别对象分析中介绍的汉字的上部,中部, 下部的位置关系情况有: 独立:可以根据各部的上下位置关系识别出上 部,中部,下部. 粘连,粘连且交叠:首先进行去除粘连部分的处 理,进行去除粘连处理后的上部,中部,下部之间的 位置关系,如果是独立的,可以根据各部的上下位置 关系识别出上部,中部,下部.去除粘连部分的处理 只能解决那些粘连不太严重的部分,对于粘连严重的 部分,则需要对存在粘连的部分进行分割,进行分割 时需要考虑以下条件: 1)封闭区域不分割.在候选连通区域中,若有封 闭区域,则不做分割. 2)极小值处分割(必要条件).候选分割处于水 平投影的波谷或局部极小值处. 3)横向分割.分割只考虑横向分割情形,不考虑 纵向分割. 4)突变地方(必要条件). 连通区域描述:={(,Y『)’R鲥,,},其中, F(x…Y)为连通区域像素集;S为连通区域面积,即连通 区域像素点个数;R?为连通区域的外接矩形,R,= (n~n(xi),rain(y,),max(x『)’max(y『));.为外接矩形像素点集, I?tO={f(xi,Yf)lmin(xi)<x,<max(xi),min(y,)<--Y~<-max(yf)). 对于识别对象分析中介绍的汉字的上部,中部, 下部的位置关系情况的交叠则需要根据连通体的位置 情况进行结构识别. 对于识别对象分析中介绍的汉字的各部内的连通 区域情况:即对于第2,3,4种情况,首先要对连通 区域进行合并,然后再根据各部的连通区域,投影,封 闭区域关系等条件综合识别汉字的结构. 根据上中下结构汉字的结构特征设计如下结构识 别方案: 1)读入汉字图像. 2)判断图像中是否含有粘连部分,如果有则进行 去除粘连部分的处理,如果没有则转到下一步. 3)连通区域标记.对图像中的每个连通区域进行 标记. 4)连通区域合并.若上部(中部或下部)为单连 通区域,则不必进行合并,直接进入下一步骤. 连通区域关系定义:设C.,C2为两个连通区域,C. 的外接矩形为:RReetCI--(min),mi),max),max, 外接矩形点集为:_llmimax?, 100湖南丁业大学2007矩 min(y])<y,max(.C:的外接矩形为: RR~c, = (mjn(),min(),max(f2),max(f2)),外接矩 形点集为:=f/(蕾,Yi)=llmin蕾<_max(x/2), min(y/2)<Yimax()l. 连通区域合并共由以下3个部分组成: a.任意两个连通区域位置关系的判定,若为非上 下关系,则进行合并,否则保留. 上下关系判定条件为: i)min(y])>max(y/2): ii)min(y/2)>max(y1): iii){max(yl1>max(y/2),min(y1)<max(y/2), (max(y1)十min(Y1))/2>max(y; iv){max(y/2)>max(min(y/2)<max(Y1), (max(y/2)+min(训/2>max()}o 若C.,C满足以上任一条件,即可判定为上下关系. b.面积小于某一阈值的连通区域就近合并. c.面积最小的连通区域就近合并. 5)根据封闭区域,极小值处分割,横向分割,突 变地方等条件,对存在粘连的部分进行分割. 6)根据图像的连通区域位置,水平投影,封闭区 域等条件再结合网格识别出匕部,中部,下部 3实验与评论 3.1实验步骤与结果 1)取出GB2312规定的二级汉字基本集中的324个 上中下结构的汉字,将该汉字制作成位图图像,汉字 字体统一为黑体,以该图像作为处理对象. 2)图像的预处理. 3)依据上中下结构汉字的结构的网格识别规则, 设计算法及编写程序,建立上中下结构汉字的结构识 别系统.上中下汉字结构识别系统如图5所示. 中下结构的汉字样本集进行测试,测试结果. 5)对比人工识别和计算机识别的异同,分析不同 部分产生的原因. 实验实现了利用网格对上中下结构的汉字的结构 识别,GB2312规定的二级汉字基本集上中下结构汉字 共324个,正确地识别出303个,有21个汉字的结构 不能正确识别,结构的识别正确率达到93.5%. 3.2分析与评论 实验过程中的识别错误主要由以下原因造成: 1)组成汉字的各部件之间粘连严重,候选分割位 置处存在封闭区域. 2)汉字结构复杂,难以确定上部,中部,下部各 部之间的精确界限.如图6所示. 爨图6不能正确切分的汉字 Fig.6Chinesecharacterofwrongsegment 4结论 1)实验结果表明,基于网格的上中下结构汉字的 结构识别方法有效,这为汉字结构信息化研究提供了 一 条新途径,也将促进汉字信息化的发展. 2)网格可以作为汉字结构识别的工具.对二级汉 字基本集左中右结构汉字的结构识别率超过92%. 3)对难以确定各部界限的汉字结构的识别,尚需 进行深入研究. 参考文献: 【1】 【2】 【3】 【4】 麴【5】 图5上中下结构汉字的结构识别系统 Fig.5DescribingsystemforstructureofChinese characteraboutup-center-downstructure 4)对GB2312规定的二级汉字基本集中的324个上 张晓明.二十世纪汉字字形结构研究【J】.语言教学与研究, 2004(5):75-79. GF3001-1997,信息处理用GB13000.1字符集汉字部件 【S】. 李晓辉,吴蓓,董武,等.基于部件特征的分类方法 以及在汉字识别中的应用【J】.微电子学与计算机,2003, 19. 10:17— 皮佑国,牟总斌.在计算机中描述汉字的网格及其描述方 法:中国,200410015239.2【P】.2004—12-29. LiangTian—cai.QiuZhi—wen.PiYou—guo.SimpleGrid BasedonCognitiveMechanismandApplicationResearchon DescriptionforStructureofChineseCharacter[C]//The26th ChineseControlConference.Zhangjiajie:IEEEComputer Society,2007:689—693.
/
本文档为【基于网格的上中下结构汉字的结构识别研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索