收稿日期 : 2001-06-28
作者简介 : 殷瑞祥 (1960 - ) ,男 ,副教授 ,主要从事信号处
理和图象处理研究.
研究简报
文章编号 : 1000-565X(2002) 02-0094-03
身份证号码的自动识别系统
殷瑞祥 李国华
(华南理工大学 电子与信息
学院 , 广东 广州 510640)
摘 要 : 研究身份证号码的自动识别. 对身份证号码图象进行了彩色空间分析 ,构造基于
UV 通道的彩色滤波器以去除身份证特有的彩色噪声 ;然后利用边缘图象切分数字 ,通过
最值滤波器二值化切分后的图象 ;最后使用结构法对数字进行识别. 实验结果表明 ,设计
彩色滤波器可以有效的去除图象的彩色污染 ,提出的识别系统处理速度达到了实用水平.
关键词 : 数字识别 ; 彩色滤波器 ; 数字分割 ; 局部二值化
中图分类号 : TP 391. 43 文献标识码 : A
在很多场合都需要对证件检查 ,并需要人工输
入证件的号码和其他信息 ,而利用图象处理技术对
身份证图象的信息进行自动识别 ,可以显著提高效
率 ,实现身份证信息的自动化输入. 下文介绍了身份
证号码的自动识别系统.
1 身份证号码区域图象的彩色空间分析
不同于其它专门的 O C R 证件[ 1 ] ,身份证件的
打印和印刷以及封套没有统一的规定 ,而且新式旧
式身份证混杂使用 ,对号码识别造成很大困难. 在旧
式的身份证扫描的图象上有较明显的偏绿色的条
纹 ,同时数字在打印的时候色带的使用情况不同 ,有
时数字墨迹比较淡 ,造成绿色条纹的灰度和数字的
灰度值相近 ,在数字识别的时候就成为很大的干扰 ,
其灰度直方图也没有明显的双峰特性 ,数字的灰度
区域与干扰的灰度区域部分重叠在一起 ;新式身份
证图象采用激光防伪套膜技术 ,在扫描反射光照下 ,
有一定色彩干扰叠加在数字信息上 ,而且在不同光
照情况下表现出来的干扰也不一样 ,同样对数字的
识别造成了困难. 分析表明 ,身份证号码区域图象可
以分为三层 : ①接近白色的背景层 ,具有较大且固
定的灰度值 ; ②数字信息层 ,在图象中表现为色差
很小 (几乎不带颜色信息) 而且是灰度值小 (近黑色)
的象素 ; ③偏绿色条纹或偏蓝色亮纹的干扰层 ,以
及二者混合的彩色干扰 ,这一层的特点主要是象素
有一定的色差 ,而且灰度值相对数字象素点来说较
大.
三层灰度区域的边界不分明 ,相互交叠在一起 ,
所以身份证号码识别的首要任务就是将这三层中的
数字信息层提取出来.
2 身份证号码图象的彩色滤波
由于绿色条纹灰度与数字灰度相近 ,且条纹与数
字交错在一起 ,造成后续的识别困难. 干扰条纹具有
偏绿色特点 ,利用图象的彩色信息可有效去除条纹干
扰.数字信息和彩色污染的信息在 R GB 色彩空间很
难分离开来 ,我们转换到另外一个色彩表达空间———
YUV( Y代表亮点 , U、V 是两个彩色分量 ,表示色
差)空间 ,在 UV 空间里 ,数字信息和彩色条纹隶属两
个区别明显的集合 ,可以较容易的分离出来.
将分割出来的包含数字的图象块 ,按照图 1 的
流程先转化为灰度图象 Y′.
图 1 中 , T1 、T2 为动态阈值 ,且有
6T1
i = 0
H ( i) / 6255
j = 0
H ( i) = 1/ 56255
i = T2
H ( i) / 6255
i = 0
H ( i) = 1/ 2
(1)
华 南 理 工 大 学 学 报 ( 自 然 科 学 版 )
第 30 卷 第 2 期 J our nal of Sout h China U nive rsit y of Tech nology V ol . 30 N o. 2
2002 年 2 月 (Natural Scie nce Edition ) February 2002
其中 H ( i) 为灰度直方图函数. 经过彩色滤波 ,把图
象象素分成三类 : (1) 没有受到彩色污染的象素点 ;
(2) 没被彩色污染的背景象素 ; (3) 色差大且灰度
大 ( Y > T1) 的象素 , 即背景上的暗纹或条纹 ,通过
均值滤波融入背景中 ,而且可以将少量可能误分为
暗纹或条纹的数字象素的灰度变化 (在二值化时有
用的信息) 保留下来.
图 1 彩色滤波流程图
Fig. 1 Color f ilte ring f low chart
3 身份证号码的数字切分
通过预处理得到的号码图象有效去除了条纹干
扰 ,但是对数字的原始灰度没有作过大的调整 ,灰度
图象的直方图仍然没有明显的双峰 ,使用简单的单
阈值二值化方法显然不能满足识别要求. 我们利用
文本灰度图象二值化技术 ———局部二值化来提取数
字信息.
二值化的快速算法复杂度与面积成正比[ 2 ] ,对
身份证号码图象进行切分 ,将单个数字区域分割出
来识别 ,可以有效地提高处理速度. 我们采取水平投
影的方法[ 3~5 ] ,把二值图象上的信息点如白点投影
到水平轴上 ,在投影图中判断极值的同时 ,根据数字
大小和间隔固定的先验知识 ,将每个号码区域分割
开. 对号码图象的灰度图利用简单的梯度算子或 so2
bel 算子滤波 ,用动态阈值 T3 二值化得到二值边缘
图象 ,因为只需要对于数字的切分 ,而数字边缘点在
图象中的概率分布是大致固定的[ 6 ] (实验表明此值
约为 1/ 8) ,在边缘二值图象中一般取 T3 满足
6255
i = T3
H ( i) = 18 6255i = 0 H ( i) (2)
利用边缘二值图的水平投影 ,找出每一个极小
值点 ,然后根据数字和间距大小合并这些极小值点 ,
分割开每个数字.
对分割的数字进行基于极值的局部二值化[7 ] ,
设字体宽度为 W ,取阈值 T4 满足
6255
i = T4
H ( i) = A10 (3)
其中 A 为切分后各数字块的总象素数. 设 Y ( x , y)
表示 ( x , y) 点的灰度值 ,引入阈值 T5 、T6 、T7 ,
T5 ( x , y) = 12 ( a + b) , T6 ( x , y) = a - b (4)
T7 ( x , y) = average
- w < k < w , - w < l < w
T5 ( x + k , y + l) (5)
其中 a = max
- w < k < w , - w < l < w
Y ( x + k , y + l) ,
b = min
- w < k < w , - w < l < w
Y ( x + k , y + l) .
对数字块灰度图进行二值化
B ( x , y) =
1 Y ( x , y) < T7 , T6 > 13 ( T4 - Ymin)
0 否则
(6)
二值化后的单个号码二值图象归一化为 20 ×20 点阵.
4 身份证号码数字的结构法识别
考虑到打印体数字的形状比较固定 ,左右轮廓
反映数字的特征 ,为了达到快速的目的 ,采用水平垂
直投影和左右轮廓投影结合的方法进行识别.
从归一化的图象提取如下特征 :垂直和水平投
影及投影极值 V prj和 V prjPeak , Hprj和 HprjPeak ;左右轮
廓投影 L prj 和 Rprj ;左右轮廓投影一阶差分 L dif 和
R dif ;左右轮廓投影变化峰值 L Peak 和 R Peak ;数字长
H、宽 W 及长宽比 R 等.
将以上特征归一化 ,筛选合并为供数字识别的
多维特征矢量 ,选取一定数量的数字样本 ,用样本的
特征矢量训练分类器 ,采用经过训练得到的分类器
对二值化的号码数字进行识别[ 8 ] .
5 实验结果
我们取 100 幅大小为 571 ×91 的扫描图象进行
数字识别测试 ,实验环境为 PII I550PC 计算机 ,用
V C + + 6 编程实现. 结果列于表 1 .
第 2 期 殷瑞祥 等 : 身份证号码的自动识别系统 95
表 1 身份证号码 (18 位数字) 识别结果
Table 1 Results of ID card number recognition
彩色滤波
时间/ s
数字切分
时间/ s
数字二值化
时间/ s
数字识别
时间/ s
单数字识
别率/ %
0 . 110 0 . 160 0 . 111 0 . 020 98
我们对整体图象二值化后再切分数字也作了相
应的对照实验 , 二值化和切分数字时间合计为
0 . 409 s ,而在我们的
中 ,切分与二值化时间为
0 . 271 s ,因此 ,采用局部二值化速度可提高 33 . 7 %.
实验中一张身份证号码的平均识别时间为 0 . 401 s ,
整体处理速度提高了 25 %.
实验表明 , 100 幅号码图象的单个数字的识别
率达到 98 % ,身份证号码整体识别率达 90 % (18 位
号码中出现一个号码识别误差 ,则该身份证作识别
误差计算) . 我们对产生识别误差的对象进行分析发
现 ,产生识别误差的数字一般为下列两种情况 :一是
使用时间比较长的身份证 ,套膜严重磨损 ,造成数字
信息模糊 ;二是身份证上人为污迹遮盖了数字 ,造成
扫描图象本身数字模糊 . 而对于无污染未磨损的身
份证 ,识别率可达到 100 %.
参考文献 :
[1] 于 锐 ,蒋才平. OCR 在证件技术中的应用 [J ]. 警察技
术 ,1996(2) :30 - 34.
[2] Xu lei ,Li Jie- gu ,Li Wen-shun. A fast algorithm for extreme
filter for 2D image [J ]. J ournal of Shanghai Jiaotong Uni2
versity ,1977 , E- 2(1) :59 - 62.
[3] 娄 震 ,胡钟山 ,杨静宇.支票自动处理系统中的图象处理
及识别 [J ].南京理工大学学报 ,1999 ,23(3) :273 - 277.
[ 4 ] 张 引 ,潘云鹤 . 面向车辆牌照字符识别的预处理算法
[J ] . 计算机研究与应用 ,1999 (7) :85 - 87.
[ 5 ] 廖金周 ,宣国荣. 车辆牌照的自动分割 [J ] . 微型电脑
应用研究与设计 ,1997 (7) : 32 - 37.
[ 6 ] 张二虎 ,吴显金. 复杂背景中字符图象的提取 [J ] . 西
安理工大学学报 ,1999 ,15 (3) :50 - 53.
[ 7 ] 叶芗芸 ,戚飞虎 ,吴健渊. 文本图象的快速二值化方法
[J ] . 红外与毫米波学报 ,1997 ,16 (5) :344 - 350.
[ 8 ] 余英林 . 数字图象处理和模式识别 [ M ] . 广州 :华南理
工大学出版社 ,1990 .
An Automatic Recognition System for identif ying ID Card Numbers
Yi n Rui- xia ng L i Guo- h ua
( College of Elect ronic and Inf ormation Engineering , Sout h China U niv. of Tech . , Guangzhou 510640 , China)
Abst ract : A n aut omatic recognition syste m f or ide ntif ying ID ca rd numbers was p rop osed. The ima ge of
ID ca rd numeral section was a nal yzed in color f ield . A color f ilte r f or t he ima ge was desi gned based on
U V cha nnels t o eliminate t he sp ecial color noise . Af te r se gme ntation of t he numerals b y edge ima ge , t he
single numeral a rea is sep a rately bina rized by t he local ext re me f ilte r . St ructural met hod was e m ployed
f or numeral recognition . The exp e rime ntal results i ndicate t hat t he color f ilte r achieves a good p e rf or2
ma nce in de noisin g. The p rocessing sp eed of t he p rop osed recognition syste m is accep ta ble in p ractical
app lications .
Key words : numeral recognition ; color f ilte r ; numeral se gme ntation ; local bina rization
96 华 南 理 工 大 学 学 报 (自 然 科 学 版) 第 30 卷