基于网格的上中下结构汉字的结构识别研究
基于网格的上中下结构汉字的结构识别研
究
第21卷第6期
2007年l1月
湖南]-业大学
JournalofHunanUniversityofTechnology
Vo1.21NO.6
NOV.2007
基于网格的上中下结构汉字的结构识别研究
王素利,皮佑国,梁添才,丘志文
(华南理T大学自动化科学与工程学院,广东广州510641)
摘要:采用简易网格,以GB2312规定的二级汉字基本集中的上中下
结构汉字作为研究对象,研究了汉字
的结构识别.实验表明了方法的有效性,并给出了分析和实验过程.
关键词:结构;网格;识别
中图分类号:TP391.12文献标识码:A文章编
号:1673-9833(2007)06-0098-03
RecognitionResearchonStructureforChineseCharacterof
Up--Center--DownStructureBasedonGrid
WangSuli,PiYouguo,LiangTiancai,QiuZhiwen
(SchoolofAutomaticScienceandEngineering,SouthChinaUniversityofTechnology,Guangzhou510641,China)
Abstract:Inviewofbriefgrid,theresearchobjectisChinesecharacteraboutup
downstructureinsecondary —center—
ChinesecharacterbasicsetwithinGB2312.Itstudiesrecognitionforstructure
ofChinesecharacter.Theexperimentprovesthat
methodisfeasibleandalsoputforwardtheexperimentprocess.
Keywords:structure;grid;recognition
0引言
汉字作为世界上仅存的最古老的表意文字,字形
是它的本体?,它用形象具体的形式表达一般抽象的
内容,集中体现了中华民族的思维方式,是中华民族
集体智慧的结晶.
汉字是拼合文字,是由部件(含笔画,偏旁和部
首)按一定规则拼合而成的.汉字的部件是由笔画组
成的具有组配汉字功能的构字单位(国家语评).虽
然拼音文字也属于拼合文字,但它以首字母为起点顺
序排列,字母的竖直位置,形态和大小都不变;而
汉字在用部件组成合字时,根据汉字结构的不同,部
件的位置,形态和大小都会发生一定的变化,所以汉
字的拼合规则要比拼音文字的拼合规则复杂得多.
汉字的一级结构有:左右结构,左中右结构,上
下结构,上中下结构,全包围结构,半包围结构,整
体结构,品字结构8类.GB2312规定的二级汉字基本
集中的汉字6763个,其中上中下结构的汉字324个.
本文以GB2312规定的二级汉字基本集中的上中下结构
汉字为研究对象,研究上中下结构汉字的结构识别.
上中下结构汉字:该汉字由上中下3个或3个以
上部件组成.按照结构分,上中下结构的汉字由上部,
中部,下部组成.上中下结构汉字的结构的识别,要
求准确地识别出汉字的上部,中部,下部.
在刚刚开始学习写字的时候,一般会利用田字格
(2X2网格)和九宫格(3X3网格),如图1所示.田字
格和九宫格有助于初学写字的人对于汉字结构的认知,
根据网格的这种特点,基于传统的汉字结构的认知机
理,本文利用网格实现上中下结构汉字的结构的识别.
禺瘸
图1田字格和九宫格
Fig.1TiangridandNineGonggrid
收稿日期:2007-08-30
作者简介:王素利(1979一),女,辽宁锦州人,华南理T大学硕士生,主要研究方向为图像处理;
皮佑国(1953一),男,重庆开县人,华南理工大学教授,博士生导师,主要研究方向为智能控制理论与应用.
第6期王素利,皮佑国,梁添才,丘志文基于网格的上中下结构汉字的
结构识别研究99
1识别机理
1.1分析工具
我们采用如图2所示的2×2,3×3简易网格,及
其扩展的4×4,6×6,9×9网格来分析和描述汉字
结构引.
宙酯船崩2×2嘲格3×3网格4×4网格6×6网格9×9网格
图2简易网格
Fig.2Simplegrid
1.2识别对象分析
选取GB2312二级汉字基本集中的上中下结构汉字
作为研究对象,字体为黑体.将其放到网格中,示例
如图3所示.
画图嘲圈豳
图3网格分析示例
Fig.3GriddescriptionforstructureofChinesecharacter
上中下结构汉字的上部,中部,下部之间的界限
分别在上1/3,2/3处;上1/6,4/6处;上1/3,1/2处;
上3/6,5/6处;上1/4,3/4处;上1/4,2/3处;上1/2,
2/3处;上1/4,5/9处;上1/4,2/4处;上1/4,5/6处;
上1/3,3/4处;上1/6,5/6处;上1/4,4/9处;上1/6,
3/6处;上1/4,1/3处;上1/4,5/6处.共16种情况.
经分析表明:研究对象的上,中,下各部之间位
置关系如图4所示,分为如下4种.
1)独立:汉字各部分开为独立整体.
2)交叠:各部间无接触,但无法简单地用水平分
割线分割.
3)粘连:某部在一点或几点与相邻部接触.
4)粘连且交叠:粘连与交叠的情况并存.
鼻茶暴墓a)独立b)交叠C)粘连d)粘连且交叠
图4各部间的位置关系
Fig.4Placerelationofeverypart
汉字各部分的连通性分为:
1)上部(中部或下部)为单连通区域.
2)上部(中部或下部)为非单连通区域,它们都
处在网格的同一横向子格中,如”一,”,”<《《”“心”.
3)上部(中部或下部)为非单连通区域,它们不
处在网格的同一横向子格中,如”乡”,”穴”.
4)存在比较小的连通区域,如”,”.
2识别
对于识别对象分析中介绍的汉字的上部,中部,
下部的位置关系情况有:
独立:可以根据各部的上下位置关系识别出上
部,中部,下部.
粘连,粘连且交叠:首先进行去除粘连部分的处
理,进行去除粘连处理后的上部,中部,下部之间的
位置关系,如果是独立的,可以根据各部的上下位置
关系识别出上部,中部,下部.去除粘连部分的处理
只能解决那些粘连不太严重的部分,对于粘连严重的
部分,则需要对存在粘连的部分进行分割,进行分割
时需要考虑以下条件:
1)封闭区域不分割.在候选连通区域中,若有封
闭区域,则不做分割.
2)极小值处分割(必要条件).候选分割处于水
平投影的波谷或局部极小值处.
3)横向分割.分割只考虑横向分割情形,不考虑
纵向分割.
4)突变地方(必要条件).
连通区域描述:={(,Y『)’R鲥,,},其中,
F(x…Y)为连通区域像素集;S为连通区域面积,即连通
区域像素点个数;R?为连通区域的外接矩形,R,=
(n~n(xi),rain(y,),max(x『)’max(y『));.为外接矩形像素点集,
I?tO={f(xi,Yf)lmin(xi)<x,<max(xi),min(y,)<--Y~<-max(yf)).
对于识别对象分析中介绍的汉字的上部,中部,
下部的位置关系情况的交叠则需要根据连通体的位置
情况进行结构识别.
对于识别对象分析中介绍的汉字的各部内的连通
区域情况:即对于第2,3,4种情况,首先要对连通
区域进行合并,然后再根据各部的连通区域,投影,封
闭区域关系等条件综合识别汉字的结构.
根据上中下结构汉字的结构特征设计如下结构识
别方案:
1)读入汉字图像.
2)判断图像中是否含有粘连部分,如果有则进行
去除粘连部分的处理,如果没有则转到下一步.
3)连通区域标记.对图像中的每个连通区域进行
标记.
4)连通区域合并.若上部(中部或下部)为单连
通区域,则不必进行合并,直接进入下一步骤.
连通区域关系定义:设C.,C2为两个连通区域,C.
的外接矩形为:RReetCI--(min),mi),max),max,
外接矩形点集为:_llmimax?,
100湖南丁业大学2007矩
min(y])<y,max(.C:的外接矩形为:
RR~c,
=
(mjn(),min(),max(f2),max(f2)),外接矩
形点集为:=f/(蕾,Yi)=llmin蕾<_max(x/2),
min(y/2)<Yimax()l.
连通区域合并共由以下3个部分组成:
a.任意两个连通区域位置关系的判定,若为非上
下关系,则进行合并,否则保留.
上下关系判定条件为:
i)min(y])>max(y/2):
ii)min(y/2)>max(y1):
iii){max(yl1>max(y/2),min(y1)<max(y/2),
(max(y1)十min(Y1))/2>max(y;
iv){max(y/2)>max(min(y/2)<max(Y1),
(max(y/2)+min(训/2>max()}o
若C.,C满足以上任一条件,即可判定为上下关系.
b.面积小于某一阈值的连通区域就近合并.
c.面积最小的连通区域就近合并.
5)根据封闭区域,极小值处分割,横向分割,突
变地方等条件,对存在粘连的部分进行分割.
6)根据图像的连通区域位置,水平投影,封闭区
域等条件再结合网格识别出匕部,中部,下部
3实验与评论
3.1实验步骤与结果
1)取出GB2312规定的二级汉字基本集中的324个
上中下结构的汉字,将该汉字制作成位图图像,汉字
字体统一为黑体,以该图像作为处理对象.
2)图像的预处理.
3)依据上中下结构汉字的结构的网格识别规则,
设计算法及编写程序,建立上中下结构汉字的结构识
别系统.上中下汉字结构识别系统如图5所示.
中下结构的汉字样本集进行测试,
测试结果.
5)对比人工识别和计算机识别的异同,分析不同
部分产生的原因.
实验实现了利用网格对上中下结构的汉字的结构
识别,GB2312规定的二级汉字基本集上中下结构汉字
共324个,正确地识别出303个,有21个汉字的结构
不能正确识别,结构的识别正确率达到93.5%.
3.2分析与评论
实验过程中的识别错误主要由以下原因造成:
1)组成汉字的各部件之间粘连严重,候选分割位
置处存在封闭区域.
2)汉字结构复杂,难以确定上部,中部,下部各
部之间的精确界限.如图6所示.
爨图6不能正确切分的汉字
Fig.6Chinesecharacterofwrongsegment
4结论
1)实验结果表明,基于网格的上中下结构汉字的
结构识别方法有效,这为汉字结构信息化研究提供了
一
条新途径,也将促进汉字信息化的发展.
2)网格可以作为汉字结构识别的工具.对二级汉
字基本集左中右结构汉字的结构识别率超过92%.
3)对难以确定各部界限的汉字结构的识别,尚需
进行深入研究.
参考文献:
【1】
【2】
【3】
【4】
麴【5】
图5上中下结构汉字的结构识别系统
Fig.5DescribingsystemforstructureofChinese
characteraboutup-center-downstructure
4)对GB2312规定的二级汉字基本集中的324个上
张晓明.二十世纪汉字字形结构研究【J】.语言教学与研究,
2004(5):75-79.
GF3001-1997,信息处理用GB13000.1字符集汉字部件
【S】.
李晓辉,吴蓓,董武,等.基于部件特征的分类方法
以及在汉字识别中的应用【J】.微电子学与计算机,2003,
19. 10:17—
皮佑国,牟总斌.在计算机中描述汉字的网格及其描述方
法:中国,200410015239.2【P】.2004—12-29.
LiangTian—cai.QiuZhi—wen.PiYou—guo.SimpleGrid
BasedonCognitiveMechanismandApplicationResearchon
DescriptionforStructureofChineseCharacter[C]//The26th
ChineseControlConference.Zhangjiajie:IEEEComputer
Society,2007:689—693.