离线签名鉴别(可编辑)
中南大学
硕士学位论文
离线签名鉴别
姓名:戴斯获
申请学位级别:硕士
专业:信号与信息处理
指导教师:夏利民
20090501摘 要
签名是一种使用广泛的识别身份的生物特征,在社会生活中扮演
着重要的角色。基于手写签名的身份鉴别在金融、军事、商业、通信、
办公自动化、安全等领域有着广泛的应用前景。因此研究在离线状态
下,使用计算机对手写签名进行自动识别进而辨别身份的技术具有很
大的实用价值。本文对离线签名鉴别中的预处理、特征提取、认证和
识别作了深入的研究。主要工作体现在以下几个方面:
研究了签名图像的平滑、二值化、细化和笔迹修复等预处理
操作。考虑签名图像特性并针对图像二值化中的阈值选取问题,提出
一种混合二值化算法,有效地解决了全局阈值法和局部比较法的不
足,抗噪能力强,保持笔划连通性好,适合于签名图像的二值化。
提出一种基于保局投影的特征提取方法。综合采用签名的形
状特征、伪动态特征、纹理特征作为初始特征,克服了单一特征没有
足够能力反映细微差异的缺陷;利用保局投影对高维初始特征集进行
降维,获取更具另性的特征。该方法既具有保持数据集结构不变的
非线性特点,又有效解决了“维数灾难”问题。
提出一种基于最优阈值的签名认证方法。运用加权欧氏距离
构建判别器,采用遗传算法自适应选取最优阈值。克服了传统方法对
所有人选取相同阈值的缺陷。实验结果表明该方法能有效的降低误识
率和拒识率,从而提高签名认证的准确率。
采用一种具有纠错能力的多类分类法对签名图像进行识
别。利用纠错码结合支持向量机来构造多个二元分类器;根据每个
分类器的输出采用投票方法决定识别结果。该方法有效地利用了
信道差错控制编码技术因而具有纠错能力,取得了比传统方法更
好的
识别效果。 关键词:离线签名鉴别预处理特征提取最优阈值支持向量
机 ., ?, ,.,’
,
.
.
,
,,.
:
,,.
. . ’,
. ,
.,
. .’
.
..
...,, .? . .
..
:
;;
; ;
原创性声明
本人声明,所呈交的学位论文是本人在导师指导下进行的研究
工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢
的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不
包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我
共同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。
日期:
丑年上月三日
作者签名:雌
关于学位论文使用授权说明
本人了解中南大学有关保留、使用学位论文的
,即:学校
有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位
论文的全部或部分
,可以采用复印、缩印或其它手段保存学位论
文;.学校可根据国家或湖南省有关部门规定送交学位论文。
储签名:摊导师签名五陋日期:型年上月塑日中南人学硕十论文 第一章绪论
第一章绪论 帚一早珀匕
.研究背景及意义
当今的社会是一个高速发展的社会,计算机和网络的普及使人们之间的交往
越来越频繁,但随之而来的安全问题却越来越突出。以往通用的安全认证手段局
限于使用钥匙、磁卡和密码等措施。但是钥匙和磁卡容易遗失,而密码可能被遗
忘,并且黑客利用计算机日益提高的运算性能很容易将固定位数的密码攻破,这
对安全性能要求比较高的领域,如金融领域、安全领域和个人隐私领域等,可以
说是灾难性的,因此这就需要相当可靠的信息安全保障。一种新的更安全、方便
的身份识别途径一生物特征识别技术正是基于用户的独特性而备受瞩目。
所谓生物特征识别技术是指通过计算机将人体所固有的生理
特征或行为特征进行收集、处理,来进行个人身份鉴别认证和识别的技术。可
供做个人身份确认的生物特征有许多种,大致可分为两类:
生理特征:它是与生俱来的,多为先天性的。常用的生理特征包括、指
纹、掌纹、视网膜、虹膜、面部特征、手形以及一些部位的皮下血管分布情
况等;
行为特征:是习惯使然,多为后天形成。如声纹、签名、笔迹和步态等。
科学家将生理特征和行为特征统称为生物特征。
如图.所示为基于不同的身份验证方法:生物特征和物理特征基于动态
和静态的区分。
擞薹膘数
艏鹳髋;:
静态特征
一
一
?
一
祸一
图.不同的身份验证方法
能够用来鉴别身份的生物特征应该具有以下四个特点:第一章绪论
中南人学硕:论文
广泛性,每个人都应该具有这种特征;
唯一性,每个人拥有的特征应该各不相同;
稳定性,所选择的特征应该不随时间变化而发生变化或者变化很小;
可采集性,所选择的特征应该便于测量。
手写签名作为一种生物特征,虽然不属于个人固有的生理特征,但它是一种
行为特征。现代人体运动学研究表明,签名这种运动是由人的神经一肌肉系统决
定的,与个人的性格、体质和幼时的训练有关,每个人都拥有自己独特的书写风
格?,表现为不同的书写力道、笔划书写顺序、笔划连接方式、局部装饰笔划等。
因此签名可以作为辨识个人身份的一种有效生物特征。
签名鉴别是建立在每个人的签名都有自己独特的理解和写法,并且相对稳定
的基础之上的。签名不仅代表了签名者的信息,而且签名的某些内在的具有唯一
性的特征与产生签名这一信息的特定生物力学系统有关乜?。与其他生物测定技
术相比,签名鉴别具有如下优点:
签名作为一种用户的习惯行为,不会被遗忘。
自然性。签名是用户经常进行的活动,属于一种容易接受的信息
采集模
式。在笔迹鉴别过程中,用户可以和平时一样,在很自然的方式下提供
签名。相比之下,虹膜识别虽然具有很高的识别率,但在数据采集阶段
用户必须将眼睛睁大,站在仪器的有效感受范围内,较长时间内保持特
定的姿势,这对用户而言是很不舒适的。
共享性。正因为签名是独特的,长久以来人们使用签名、并信任签名所
代表的内涵。在现代的金融领域,用户可签署函件赋予他人以代理人的
权利,或以支票的形式使他人间接地使用自己的签名,从而他人可以享
‘
有用户的部分权力。这是用其他的生物特征无法实现的。
此外,签名还具有难模仿,尊重隐私权,信息获取高效,易被接受,人体伤
害少等优势。鉴于签名鉴别的诸多特点,它在金融、银行、安全等领域有着很好
的应用前景。例如在金融领域中,用户无需出据繁琐的诸如单位证明之类的各种
纸张证据,只需要一个简单的签名就可以对用户的身份进行认证;在安全领域中,
通过辨明笔迹可以缩小嫌疑人的范围;通过签名识别则可以对敏感人物签署的文
件进行监控;特别在银行里,每天都面临大量的支票需要确认真伪,有效的签名
认证将简化确认过程,提高工作效率。
签名鉴别问题属于模式识别领域中的图像识别问题,它主要涉及计算机、图
像处理、模式识别、语言文字学、数学、人工智能和仿生学等学科,是一个综合
多个学科的研究领域。近年来,众多机构和学者在关于签名鉴别的理论和技术性
课题领域开展了广泛的研究,发表了大量的学术论文和研究报告,开发出了具有
第一章绪论
中南大学硕上论文
一定应用价值的签名鉴别系统。但是,在特征提取和分类决策方面仍存在较多待
解决的问题,具有较大的研究空间。因此,中文签名鉴别的研究是一项具有重要
现实意义的高科技应用基础研究,对提高我国高科技领域的智能
水平,改善人机
之间的信息交互能力有着重要的理论和现实意义。
.离线签名鉴别系统
签名一般可以通过两种途径获得,即:在线方式和离线方式。相应地,签名
鉴别儿副也可分为在线签名鉴别和离线签名鉴别两种。在线签名鉴别中,签名被
表示成一种或几种随时间变化的信号序列,其中包含签名的动态信息,因此在线
签名鉴别也称为动态或联机签名鉴别。而在离线签名鉴别中,签名是以所提取的
二维图像特征的形式来描述的,故也称之为静态签名鉴别。一般说来,在线签名
鉴别的识别率较高,因为这种方式的特征是以输入信号的方式获得的,可以利用
书写过程中笔尖运动的速度、加速度、压力等作为识别特征。对于离线签名鉴别,
由于书写过程中的动态信息几乎全部丢失,只能依据签名图像的静态信息,即每
个人笔迹的特点和相对稳定性来有效反映签名的书写风格和书写习惯,因此鉴别
难度比较大,识别率也相对较低。而在在线签名鉴别中,每个人的
笔尖运动都有
自己的习惯,不同人之间难以相互模仿,从而使得在线签名鉴别工作相对简单。
此外,根据身份鉴别系统工作模式的不同,又可将签名鉴别分为签名识别和签
名认证两类。目前,相关的研究大都集中于“认证”,有关“识
别’’的研究比较少。但离线签名识别与离线签名认证在预处理和
特征提取这两个步骤上基本上相同,它们不同之处主要在判别决策上。
在认证模式下,。系统对签写人身份的真伪进行认证,是一个二分类问题。认
证系统有两个重要的统计性能指标:错误拒绝率漏报和错误接受率虚
警。错误拒绝是指生物特征的真实拥有者被系统拒绝,错误接受是指将冒充者
识别为真正的生物特征拥有者。对于理想的系统来说,这两个错误率都应该是零。
但实际上这两个指标是相关的,当错误拒绝率比较低时,错误接受率相应会比较
高,反之亦然。系统往往需要在两个错误率之间取一个折衷。
在识别模式下,系统的输出通常是输入的若干个可能的拥有者,
识别目的是
从参考签名样本库中找出给定签名对应的签写者,是个多分类问题。系统性能的
主要指标是正确识别率以及匹配一个特征所需的平均时间。
..离线签名鉴别系统
离线签名认证系统中南人学硕一:论文 第一章绪论
签名认证系统一般有两个主要流程操作,一是签名样本的注册即模板的生
成。将采集的参考样本输入系统,提取有用信息,建立模板数据库;二是提取
待测签名的相关信息经过与模板信息的比较以验证真伪。在训练阶段,使用一
定数量的真实签名资料将用来建立其所拥有的参考样本。在比较阶段,将测试
用签名样本信息输入系统,这个测试样本包含的信息将用来与训练阶段所建立
的参考样本信息比较,以此判断此测试样本是否为该使用者的本人签名。
该系统流程图见下图.。如果使用者从未在该系统上注册过,将被要求
输入数个签名以产生其参考样本。随后,这些真实签名样本将经过预处理过
程,包括去除背景、平滑、二值化、细化等过程。接下来的训练阶段将提取这
些样本的有效签名特征,并建立参考样本。如果欲进入系统的使用者已登记
过,要进行签名认证,则其输入的签名将进行与训练阶段相同的预处理与特征
提取等步骤,所产生的资料则与此使用者在系统中已建立的参考样本资料库相
比对,以决定输入的签名是否为本人的真实签名。
伪造签名
图.离线签名认证流程图
离线签名识别系统
所谓离线签名识别,顾名思义就是根据离线签名图像对签写人的身份进行识
别,其依据是每个人的签名都有着自己独特的理解和写法,而且这些蕴藏在签名
中南大学硕士论文 第一章绪论
中的书写习惯相对稳定,能代表签写人的身份。构造离线签名识别系统的目的是
为了依据离线签名图像识别对应签写人的身份,系统并不对签名的真伪进行认
证。离线签名识别系统包括数据采集模块、预处理模块、特征提
取模块、注册模
块、参考数据库模块和识别模块六个部分。其中,参考数据库由参考签名图像库
和对应的参考特征库组成。
签名识别的一般流程如图.所示:首先通过数据采集数字化将签名样本
转化为数字图像;然后对得到的数字签名图像进行预处理,以滤除签名图像在数
字化中可能引入的噪声,改善图像质量,并获取各种能有效表征签名的签名信息
载体;接下来进行特征提取,提取的特征形成特征集将被用于注册或用于签名者
身份识别;最后根据该签名对应的签名者身份是否己经申明将签名注册到参考数
据库或者利用参考数据库对签名人身份进行识别。
数据采集
上
预处理
上
特征提取
图.离线签名识别流程图
..离线签名鉴别的难点及存在的问题
手写签名作为身份认证方式是当前研究的热点,但是与其他生物测定方法
尤其是指纹、视网膜、虹膜和等基于生理特征的测定方法相比,离线签名
鉴别从理论上来
,难点在于:
签名的变化性和多样性
生理特征在一段相当长的时间内是不可变的除非十分特殊的情况,如发育
第一章绪论
中南人学硕.论文
期、受伤、手术、基因突变等,而行为特征会随着人的习惯改变而相应发生或
多或少的变化。手写签名作为基于行为特征的测定技术,特定于某个用户的习惯
特性并不稳定,既会在短时期内的若干样本中有所波动,长时期内也会在下常的
范围中表现出细微的变化。这将给样本训练、认证和识别带来一定的困难,也使
得系统难以长期适应用户签名习惯的变化。
可用样本少
对于签名认证,一方面如果用大量的样本进行训练这样会造成阈值选取的
困难;另一方面,伪造签名样本不易获得。伪造签名的样本不能用统计的方法获
得,只能用随机的样本,而这就造成所获得的伪造样本有很多都是简单伪造签名,
如果用它们来代替熟练伪签名进行性能
,必然会引起对系统性能过高的估
计。
对于签名识别,如果训练样本太少,则无法提供给分类器足够的分类信息,
影响识别效果;提供的有效样本越多,获得的有关签名的信息也就越多,识别效
果也就越好。但并不是说样本越多越好,一方面选取的样本过多会增加运算量,
增加分类器负担;另一方面,如果所选取的样本有效性低,可能会带入过多的冗
余信息和干扰,反而使得有用信息无法突出。
特征集的区分度不够大
这并非指签名过程中不存在用户间区分度足够大的静态形状特征和动态行
为特征,在理想的情况下一定客观存在这样的特征组合。但在实际应用中,识别
和认证的用户群相当大,这样的特征集合也相应的会很庞大,在
盲目追求鉴别率
的同时将耗费极大的代价。
相对于在线签名鉴别,离线签名鉴别过程中由于丢失了书写过程中的动态信
息,使可利用的信息减少,增加了鉴别的难度。另外,有些高超的伪造签名模仿
得惟妙惟肖,有时即使是人类专家进行鉴别,鉴别率也可能会很低。
再者,中文签名鉴别与西文签名鉴别也有较大本质上的区别。中文主要由笔
段构成,而西文以弧段为主;而且中文签名数目多,结构复杂,且字体变化多样,
而西文签名则相对简单很多,例如英文签名只可能由个英文字母组成,即使
是只文签名,和中文签名相比,更接近手写印刷体,远不如中文签名那么复杂。
鉴于以上原因,中文离线签名鉴别至今还没有一种切实有效的方法来达到较
高的识别率。一方面,努力寻找提高离线签名鉴别系统性能的方法是当务之急,
另一方面也可以这样考虑,虽然鉴别率现在还达不到很高,但是当需要鉴别的签
名数量很大时我们可以利用我们设计开发的鉴别系统帮助人工签名鉴别专家进
行签名的初步筛选,然后由专家对筛选出的计算机难以分辨的签名进行最终鉴
别。
第一章绪论
中南人学硕::论文
.国内外发展现状
由于签名鉴别具有良好的应用前景和巨大的商业价值,国外对其的研究已有
几年,并取得了不少的成果,特别是在线签名的鉴别己相当成熟,现在某些
发达国家已经有许多成熟的商用在线签名自动鉴别仪器。由于离线签名提供的信
息较少,难度较大,相对在线签名来说研究成果比较少,还没有实用的离线签名
鉴别系统问世。我国对签名鉴别的研究较晚,外文签名鉴别的某些研究成果值得
借鉴;由于汉字的结构极其复杂,使中文签名鉴别难度更大。
如前所述,签名鉴别还可以分为认证和识别
的两种方式。但离线签名认证与离线签名识别在预处理和特征提取这两个步骤上
基本上相同的,它们不同之处主要在判别决策上,离线签名识别目的是从参考签
名样本库中找出给定签名对应的签写者,是个多分类问题,而离线签名认证则是
对签写人身份的真伪进行判别,是一个二分类问题。目前,相关的研究大都集中
于“认证”,有关“识别”的研究比较少。
预处理方面,不同的签名鉴别系统根据所提取特征的不同,采用不同的预
处理步骤。签名图像的预处理通常包括图像的平滑、二值化、灰度校正、归一化、
细化、倾斜校正,轮廓提取等方面。目前有不少针对签名图像二值化【每、细化?、
轮廓提取和跟踪【】【】方面的改进和创新的文献,每一方面都有不同的预处理方
法,在此不做详细介绍。
特征提取方面,用于离线签名鉴别的特征主要有:全局特征口?川、局部特征
如网格特征?、伪动态特征‘引、纹理特征‘和一些矩特征‘等,另外,
小波变换 。、滤波器晗?也可用于签名图像的特征提取。
在认证和识别中用于判别决策的方法主要有:近邻法矾、加权欧
式距离刀、
模糊判决法?、神经网络方法儿儿和隐马尔可夫模型?等,此外,基
于多分类器组合的分类方法也被用于签名识别阳?矧。
以下是近年来国内外学者在离线签名鉴别方面的研究情况。
町提取签名图像的倾斜特征、高灰度特征以及参考模式特征并采用
最小距离法进行签名认证,对一些精心伪造的假签名的识别获得了较好的效果。
此后,作为一种有效的伪动态信息,高灰度特征常用于离线签名鉴别。
柯晶、乔谊正等在文献中提出了签名静态特征和伪动态特征相结合的
方法,签名伪动态特征包括灰度级分布和笔划宽度分布的概率直方图,通过计
算距离来鉴别,对熟练伪造签名达到了接近%的平均正确率。
和。提出利用签名图像的全局特征和局部网格特征来进行签名认
证。其中全局特征将签名轨迹视做一个整体,包括图像大小、图像的重心位置、
中南人学硕一:论文 第一章绪论
倾斜角等;而网格特征则类似于放大镜,可提供各个层次上签名的细节信息,包
括网格轮廓特征,特征,包络线特征等。前者便于认证在外形上与真实签名
存在较大差别的随机伪造,后者便于认证与真实签名极为相似的精心伪造。采用
加权欧式距离分类器完成分类工作,针对一般伪签名和精心伪签名均取得了较好
的效果。
和 .在文献中利用静态特征加多分辨率
分析的方法,对图像和水平垂直投影进行小波变换。分类器分别采用神经网络
和矢量化方法,对英文签名的识别取得了很好的效果。
列提取签名的全局几何特征宽高比、主轴倾斜度等、
瞳提取签名的网格特征、提取签名的两种矩几何不变矩
和矩特征和拓扑逻辑特征,然后利用神经网络分类器进行鉴别,得到
了比较理想的鉴别效果。
.和
等在文献中提出了模糊
神经网络识别离线手写签名的方法,其做法是:将签名图像分块,对每一块用模
糊神经网络进行判别,再对输出进行判别。
和? 在文献中通过提取签名的静态特征和签名的高压
,并采用加权欧氏距离分类器进行分类。
特征?
和 在文献中提出了基于视觉的签
名表示新形式,认形态学的角度表示签名的形状特征。分类采用了近邻法和最
小距离法,对简单假签名取得了很好的效果。
刘成林、戴汝为等在文献中提出了基于多通道分解与匹配的笔迹识别
方法。将二值化的笔迹图像按笔划的方向性先进行方向分解,然后对各个方向
上的子图像进行频带分解。用分解后的采样信号制作为笔迹特征,用特征匹配
的方法进行书写人识别,取得了很好的实验效果。
和..等在文献中利用签名的形状矩阵作为
签名的混合形状特征,通过比较形状矩阵的相似度来识别简单的假签名。
此外,
在文献对签名的轮廓进行小波变换来对签
名进行识别。
..等在文献中提出通过构造签名的
用于简单的假签名识别。
程析、侯义斌在文献中提出了基于模糊模式识别的离线签名认证
技
术,其方法是利用模糊模式识别的方法,构造个特征的隶属度函数,分别为:
水平方向重心、垂直方向重心、高度和宽度比、笔划面积与图像面积比、签名
的正倾斜度、签名个独立部分之间的间隔和图像总宽度之比。针对简单伪造签
中南大学硕士论文 第一章绪论
名得到了%的正确认证率。
朱勇、谭铁牛等在文献中提出了一种不依赖于文本的笔迹鉴别方法,
他们将手写笔迹当作一种纹理来看待,使用多通道二维滤波器来提取纹
理特征。并用加权欧氏距离分类器来完成匹配工作,取得了很好的效果。
在多分类组合识别方面,.在文献中同时提取签名图像的
全局特征、纹理特征和网格特征,每类特征分别输入一个神经网络分类器进行
初步识别,然后分别利用神经网络组合多个分类器的输出得到最终的鉴别结
果。
综合上述方法,我们发现离线签名鉴别的研究都是结合汉字结构
与书写特
征,进而提出各种各样的特征量及其提取方法和识别方法,并最终实现签名鉴别
工作的自动化。因此在研究中必须针对应用背景,考虑方法和手段的实用性。就
签名本身而言,签名是书写人有意识的行为,受到情绪、书写环境等各种因素的
影响。因此某些人的签名数据将呈现出很大的变化性。另一方面,不同人的签名
数据间有很大的相异性,若分类器对所有人都设置相同的
,比如统一的阈值,
则当用户人数增加时,需要重新训练整个系统。当用户人数越来越多时,系统的
识别率将不可避免地下降,既费时也不可靠。因此如何对不同的用户设定不同的
参数,来保证对所有用户都有比较好的识别效果,成为当前研究存在的不足,也
为本文的研究提供了依据,是本文工作的重点。
.本文的主要研究内容
本文主要对签名图像预处理、特征提取和分类器设计进行了研究,主要工
作如下:
在预处理方面,本文的预处理包括:签名图像的平滑、二值化、细化和
笔迹修复等。本文分别采用中值滤波法对灰度图像平滑和平滑算法
对二值图像平滑。考虑签名图像的特性,本文提出了一种适用于签名图像
的混合二值化算法,该方法将全局阈值与像素点的邻域信息相结合,即
阈值由全局阈值和邻域均值综合决定,有效地克服了全局阈值法和局部
比较法的不足。对图像的细化我们采用一种两步细化算法,该算法重复
执行两个步骤,在每一步中用一个逻辑规则判断并标记待删除的像素,
待扫描完整幅图像后再去除所有作了标记的像素。在笔迹修复方面,我
们进行了去除断点、孤立点、短线和毛刺的操作。
在特征提取方面,提出了一种基于保局投影的特征提取方法。该方法综
合采用签名的形状特征、伪动态特征和纹理特征作为初始特征,克服了
单一特征没有足够能力反映细微差异的缺陷;利用保局投影对高
维初始
中南人学硕。:论文
第一章绪论
特征集进行降维,以获取更具判别性的特征。该方法既具有保持数据集
结构不变的非线性特点,又有效解决了“维数灾难”问题。
在认证方面,本文提出了一种基于最优阈值的认证方法。该方法首先采
用加权欧式距离法构建判别器,并采用遗传算法自适应选取最优阈值,
认证过程就是拿未知样本的特征与已知的训练样本的特征相比,当且仅
当它的时,未知样本为真;时,未知样本为假。该方法克服
了传统阈值法对所有人选取相同阂值的缺陷,能有效地提高认证的准确
率。
在识别方面,本文采用一种具有纠错能力的多类分类法对签名图像
进行识别。该方法利用纠错码结合支持向量机来构造多个二元分类器;
根据每个分类器的输出采用投票方法决定识别结果。该方法有效地
利用了信道差错控制编码技术因而具有纠错能力,即使几个二类分类器
产生了错误的输出结果,由于具有纠错机制,这些错误对最终的分类不
产生影响,仍然可以得到正确的分类结果。实验结果表明本文的方法取
得了比传统方法更好的识别效果。
.章节安排
本文共分六章,主要内容如下:
第一章绪论。概述了签名鉴别的研究背景和意义、签名鉴别的分类、系统构
成及国内外发展现状。
第二章签名图像预处理。深入研究了签名图像的平滑、二值化、细化和笔迹修
复等预处理操作。提出了一种适用于签名图像的混合二值化方法。
第三章签名图像特征提取。综合采用签名的形状特征、伪动态特征和纹理特征
作为初始特征;并采用保局投影对高维初始特征集进行降维,获取更具
判别性的特征。
第四章基于最优阈值的离线签名认证。实现了一种基于遗传算法
自适应选取最
优阈值的认证方法,并给出了实验结果。
第五章基于多类分类器的离线签名识别。应用和实现了一种具有纠错能力
的二类支持向量机分类器构成的多类分类器进行签名识别,并给出了实
验结果。
第六章总结与展望。
第二章数据采集和预处理
中南大学硕十论文
第二章签名图像预处理
.概述
预处理是签名鉴别的第一个核心步骤,目的是去除签名图像中的干扰,为后
面的特征提取做准备。该阶段处理结果的质量直接影响到后续处理的效果,所以
预处理在签名鉴别中的作用非常重要。
在签名鉴别中,签名者的情绪,纸张的质地和纹理,扫描设备等原因都会对
签名有一定的影响。例如文字笔画附近出现污点称为黑色孤立点,图中有缺陷
称为白色孤立点,签名笔划断开或者相邻文字粘连等。所以一般
我们不直接采
用通过扫描仪等输入设备得到的签名图像,而是先对其进行预处理。签名图像的
预处理包括两种:一种是去除签名图像输入时的干扰和噪声;另一种则是对签名
图像做变换处理以加强有用信息,为下一步提取特征向量做好准备。
在签名图像预处理方面,目前还没有文献在这方面做过系统的研究,已有的
文献对签名图像的预处理大都只做简单介绍。如.等在文献中对
扫描得到的二值签名进行去噪、签名区域获取、笔划宽度归一化和细化操作以获
取骨架签名;等在文献中对签名图像进行大小归一化处理;
等在文献中对签名图像进行滤波、倾斜校正和二值化操作以获取骨架签名;
孔维娜在其硕士论文通过滤波、二值化、细化以及位置和大小归一化来获得
归一化的二值签名和骨架签名;陈刚等在文献中提出了一种有效的签名图像
预处理方法。该方法从签名图像的表示与描述出发,得到四种归一化的签名信息.
载体,即:归一化的二值签名、归一化的灰度签名、归一化的二值
骨架签名和归
一化的灰度骨架签名。
本文实验所用的签名样本都是使用普通钢笔自由书写在打印纸上的,每页
纸张上书写个签名,这些签名分多次签写,每次间隔一到两天。将所有签
名样本用扫描仪进行灰度扫描输入计算机,所采用的扫描仪是,
扫描精度为,扫描得到的数字图象经分割后每个签名按照一定的命名规
则单独存为格式。根据需要,本文的预处理包括平滑、二值化、细化和笔迹
修复等,分别在第二节至第五节进行介绍。其中第三节提出了一种新的适用于签
名图像的混合二值化方法,该方法将全局阈值与象素点的邻域信息相结合,由全
局阈值和邻域均值综合决定图像阈值。克服了全局阈值法和局部比较法的缺点,
取得了较好的效果:在第五节我们提出了签名笔迹修复方法,该方法能有效去除
签名图像中存在的伪特征点,保留真特征点,取得了较为理想的效果。最后是本中南人学硕士论文 第二章数据采集和预处理
章小结。
.签名图像的平滑
图像平滑的主要目的在于提高签名图像的质量,消除噪声。例如,在噪声较
大的情况下,系统就有可能将噪声当成是签名的一部分,若不能很好地去掉这些
噪声,将会影响随后的特征提取。平滑处理一般应用在两个方面:对灰度图像的
平滑,以及二值化后对二值图像的平滑。通过平滑,前者可以改善灰度图像质量,
后者可在一定程度上消除图像中的噪声点孤立点、白点或黑点以及笔画边缘的
细小毛刺。一般在空间域内可以用邻域平均来减少噪声;在频率域,由于噪声频
谱通常多在高频段,因此可以采用各种形式的低通滤波的办法来减少噪声。常见
的平滑处理算法主要包括:邻域平均法、中值滤波法、频率域低通滤波等。
本文用到的平滑包括两部分:
.对原始狄度图像的平滑
采用的是中值滤波法。中值滤波是一种典型的低通滤波器,主要目的是保护
图像的边缘,同时也能去除噪声。与加权平均方式的平滑滤波不
同,中值滤波是
将邻域中的像素按灰度级排序,取其中间值为输出像素。中值滤波的效果依赖于
两个要素:领域的空间范围和中值计算中涉及的像素数当空间范围较大时,一
般只取若干稀疏分布的像素作中值计算。中值滤波能够在抑制随即噪声的同时
不使边缘模糊,方法简单易于实现,能较好的保护边界,因而受到广泛欢迎。
建立一个×窗口一般取或者,依次移动到图像各个像素点位置
上,用窗口中所有灰度中间值取代当前像素点灰度值。具体方法如下图所示:
图.像素的邻域分布
其中为目标像素,和周围风口岛组成×矩阵,然后对这个元素的
灰度进行排序,以排序后的中问元素为的新灰度值,如此完成对象素的中值
滤波,再迭代对其它像素进行滤波即可。
.对二值图像的平滑
采用平滑算法。平滑算法的思想是检查窗口内的图像结构的细
第二章数据采集和预处理
中南人学硕.二论文
厂
见
节,而不是取值为的像素的个数。设模板为×窗:
。,其
中为当前点,风~,为其邻点,平滑准则为:
当为黑像素时,如果,。,中至少有一个为黑,同时,。,,。中至少
有一个也为黑;或者,,。中至少一个为黑,对,,,中至少有一个为黑,
当为白像素时,如果‰,:,。,。中至少有三个元素为黑,则改为黑,
.签名图像的二值化
二值化就是对图像进行阈值化分割,将整幅图像画面处理成仅有黑和白的二
值图像,不呈现出灰度变化,以便于数据压缩、特征突出及后续图像处理工作。
图像二值化的关键在于阈值的选取,根据阈值来区分图像中的对象和背景。
设原始灰度图像为,,变换后的二值图像为,,则二值化的过程表
示为:
’
贴川嚣凭籍
根据选取阈值的运算范围不同,二值化方法可以分为全局阈值法和局部阈值
法。全局阈值法由文本图像的直方图或灰度的空间分布确定一个
阈值,并根据此
阈值实现灰度文本图像值化文本图像的转化。此方法的优点在于算法简单,
但是由于对整幅图使用一个阈值处理,因此对输入图像量化噪声和不均匀光照等
情况抵抗能力差,不能广泛地应用于实际。典型的全局阈值法包括方法砸、
最大熵方法等??引。局部阈值法通过定义考察点的邻域,由邻域计算模板实现
考察点灰度与邻域点的比较。此方法不受非均匀光照条件等口情况的影响,较全
局阈值法有更广泛的应用。典型的局部阈值法有?算法和算法
等口?引。局部阈值法虽然能够根据局部灰度特性来自适应地选取阈值,有较大的
灵活性,但是仍然存在缺点,如:实现速度慢,字符笔画中出现断裂以及伪影现
象即在背景区域得到笔画结果。
考虑到全局阈值法和局部比较法的优缺点,本文提出一种全局阈值法与局部
灰度分布特性相结合的二值化方法,该算法将全局阈值与象素点的邻域信息相结第二章数据采集和预处理
中南大学硕十论文
合,象素点的二值化阈值由全局阈值和邻域均值综合决定。
对于待考察的象素点和它的一邻域有下面的平滑性假设:笔划点的邻域点
很可能是笔划点,而背景点的邻域点很可能是背景点。从而可以这样认为:笔划
点的邻域点灰度均值较大,而背景点的邻域均值较小。反之,邻域灰度均值较大
的象素点是笔划点的可能性大,而邻域灰度均值较小的象素点是背景点的可能
性大。该假设除边沿点外几乎处处成立。
根据上述的假设,引入一种描述象素点属于笔划程度的测度函数??扩展
的隶属度函数一以由邻域均值%,,决定。在全局阈值的基础上,对于一
大的点,降低其二值化阈值;
反之,若‖小,则升高其阈值。从而图像的二值
化结果由全局阈值、局部特性以及象素点的灰度值共同决定。
首先计算全局阈值靠:
采用的是等的最大熵阈值方法。‘该阈值能较好的保持视觉效果,适合
于作粗阈值。该方法考虑两种分布:一个是目标,另一个是背景。分割后的图像
熵定义为:
协,
只一砉警警薹。等等
式中,表示二值化门限值,表示图像灰度级数,一般为。表示图像中
灰度为的象素在图像中所占比例,热表示背景象素所占比例低灰度部分为背
景。使图像熵日。达到最大的就是所要求的阈值,即
?
皿
依次计算图像中各象素的邻域平均值:
浯,
一慝鼢力一,
,,?,一,,,?,?一
根据全局阈值和邻域平均值可以构造一个隶属度函数‖,,用来描述由邻域
均值豫,确定的象素隶属于笔划和背景的程度,一的取值范围一,。若竹,
则一越大,象素越可能属于笔划;反之若一,则以越小,象素越可能属于
背景。第二章数据采集和预处理
中南人学硕:论文
/.的定义为:
防,
一诗他舻撇,
当,,超过瓦时,认为象素点就是笔划;反之,当%,小于瓦时,象素点就被认
作是背景。
混合二值化方法根据一自适应调整象素阈值‘的方法如下:
?
‘,以瓦
根据局部阈值‘,就可以对图像进行二值化。对于象素,,若,‘‖
贝 ,,否贝 ,。
.签名图像的细化
对签名图像进行细化,就是将签名图像的文字沿其中心轴线将其细化为一个
像素宽的线条,进而获得签名图像的骨架。细化后的文字骨架既突出了签名的形
状特点,又减少了冗余的信息量,更有利于特征的抽取。因此细化是一个十分重
要的预处理步骤。
近年来各学者相继提出了多种细化算法舶】:按细化后的连续性划分,有四
邻域法、八邻域法和混和连通法【】;按细化处理方式划分,有单
方向、双方向
和四方向即依次完成轮廓剥离;另外依据是否使用迭代运算将其分成两类瞳:
第一类是非迭代算法,一次即产生骨架。第二类是迭代算法,即重复删除图像边
缘满足一定条件的象素,最终得到单象素宽骨架。这类方法依据其检查象素的过
程又可再分成串行算法和并行算法。在串行算法中,是否删除象素在每次迭代的
执行中是顺序固定的,它不仅仅取决于前次迭代的结果,也取决于本次迭代中已
处理过象素的分布情况。在这类方法中,每次迭代只能削去一个目标层,因此很
费时间;而在并行算法中,图中各个象素的新值是其各相邻象素的局部函数,象
素的删除与否与象素在图像中的顺序无关,仅取决于前次迭代的结果,可有效的
提高图像细化时间。从另外一个角度考虑,可以将图像的细化方法分成两类,即
边缘点删除法和内点保留法【。基于边缘点删除的细化算法在细化过程中,只
对边缘点的可删除性进行判断并作相应处理,由于受细化跟踪顺
序及所考虑邻域
的影响容易产生骨架的非对称性;基于内点保留的细化算法容易使所获得的骨架
大于一个象素。中南人学硕十论文 第二章数据采集和预处理
本文我们采用一种两步细化算法对二值图像进行细化处理。该算法重复执行
两个步骤,是一种迭代算法。在每一步中用一个逻辑规则处理目标像素×邻
域内的像素,判断中心像素是否删除。把要删除的像素做上标记,待扫描完整幅
图像后再去除所有作了标记的像素。
具体方法如下:
该算法重复执行两个步骤:
第一步:扫描整幅图像,用逻辑规则,处理×邻域内的像素,把要去掉
的像素作上标记,但是不去掉。
第二步:用另一个逻辑规则:处理×窗口内的像素,把需要去掉的像素
作上标记。扫描完整幅图像后,去掉作了标记的像素。
重复一二步的过程,直到得到单位宽度的线条为止。
两次迭代中用到的逻辑规则墨,的形式为:
丑:?。?丁仇哦印,屁呱中,
最:??丁‰。嗡嗡,,
其中,为×窗口内目标像素的个数:
?
只,
?,‘
表示序列。仍乜鼽岛风岛风中 变化的次数。只中,呱表示相应
像素的逻辑乘。第一个条件??表示如果中心像素在窗口×内至少
有个至个八连通相邻像素,就可以被去掉。如果中心像素只有一个邻点,说
明它是目标端点,不能去掉。如果有个以上邻点,说明它不是目标边界点,去
掉它会引起目标腐蚀。第二个条件丁风检查像素的周围是否只有一个连
通成分。第三,四个条件哦%和,,在,或和
同岛为时得到满足。
第二章数据采集和预处理
中南人学硕士论文
缈 岁獬
,
×
缓。?
.《荔
图.窗口中心像素位于东边界南边界西北边界
缈,” ,:鬻
嚏
芒
×
‖
旅。。 。。?缓
图.窗口中心像素位于北边界西边界东南边界
三种情况如图.所示,时,属于东边界;时,风属于南边
界;且,时,‰属于西北角。在第一步中,细化算法去掉了上述三种
情况的像素。在第二步中,细化算法去掉了北边界,西边界和东南角的像素,如
图.所示。
.签名笔迹修复
经二值化和细化后的签名图像由于各种原因的影响以及噪声的干扰在局部
将会产生畸变【】【引,从而影响后续工作。实验表明一幅图像在经过二值化或细
化后可能产生大量的伪特征点】【】【】。这些伪特征点的存在,不但使特征提取
的效率大大降低,还使系统性能急剧下降,造成系统的误拒率或
误纳率上升。因
此,在进行特征提取之前,应尽可能多地将伪特征点去除,同时保留真特征点。
在未经修复处理的二值签名图像和细化签名图像中,主要存在的伪特征点如
下如图.所示:
孤立点
短线 断点 毛刺
图.各种伪特征点
本文采用一个×模板在细化后的签名图像上进行特征点位置的确定。在细
化后签名图像中有笔迹的位置,即前景点是,而背景点是。如图.所示,
中南大学硕士论文 第一二章数据采集和预处理
的八邻域点,利用模块逐点对细化后的签名图像的笔迹进行检测,可以得到特征
点的类型和位置坐标,并且标注出来。
图. ×模块
如果是端点,则满足下式:
?
??。一以,墨五
如果是分叉点,则满足下式:
?
??以。一以,墨
特征点间的距离为:
?
?一吃一奶
短线
短线的特点是它们的笔迹长度非常短,构成笔迹的前景点像素个
数比较
少。判断短线的方法如下:
在签名图像中搜索,根据式?找到端点抛
对端点%卜八个方向进行笔迹跟踪,在步长内,若有端点%存在, 则停止跟踪,判定端点%和:之间为短线。
断点:
断点是由于签名笔迹断裂而产生的伪特征点。判断断点的方法如
下:
在签名图像中搜索,根据式?找到端点,,
定义一个阈值,本文取/五为签名笔迹平均长度;
存在另一特征点%,/铂,,码、为断点,并删除。
毛刺
由于签名笔迹不够平滑导致毛刺的产生。在细化后的二值图像中
是十分常见
的现象。这种伪特征点的特点是一对端点与分叉点之间有笔迹线
相连,且两点之
间距离比较近。判断毛刺的方法如下: 中南人学硕士论文 第二章数据采集和预处理 在签名图像中搜索,根据式?找到端点% 对端点的卜八个方向进行笔迹跟踪,在步长内取/旯,若
吃
鸭
令×模板么/
中待处理的象素为,其邻域?白,?.,, 口
伤 %
则白;黑汪,,,,则黑。
;;?;;;;
除孤
乙奎 模事 板枣 障 木
氩.悱 木 体 木
奉 奎 障 。 幸
枣
?
?.一?槲,?卅? 去?.??叫?引? 图.填补空白点模板
其中半表示为和的任意值,用以上模板遍历签名图像,可以有效
地去除
空白点和孤立点。
.实验与结果
图.给出了三幅签名图像的预处理结果。图.一分别对应图.
经预处理后得到的平滑后的签名图像、二值签名图像、平滑后的二值签名图像、
签名骨架和笔迹修复后的签名骨架。从图中容易看出,预处理得到的这五种签名
信息载体能较好地描述原签名,为后续特征提取打下了良好的基础。
中南大学硬上论文 第二章数据采集和预处理
甾泌获
、夕是
垆笏
馘巍获
、?乡尖
研弘笏
馘撇蔌
、夕失
妒幻
馘期荻
、?夕史
妒够
馘身荻.
\?乡爱~
》轵,“?, 浚》强蛩
馘斯获
、夕是,
囊第二章数据采集和预处理
中南大学硕.:论文
.小结
本章研究了签名图像的预处理过程。预处理的好坏直接影响整个系统的鉴别
效果。预处理得好,可以方便提取到有效的特征,节省提取特征的时间,为以后
的认证和识别打下基础。经过预处理我们在原始签名图像的基础上得到了平滑后
的签名图像、二值签名图像、平滑后的二值签名图像、签名骨架和笔迹修复后的
签名骨架。实验结果表明本文的预处理方法取得了较好的效果。
中南人学硕。:论文 第三章签名图像特征提取
第三章签名图像特征提取
.概述
预处理之后,接下来的步骤就是特征提取。特征提取【】【】是签
名鉴别中一个
非常重要的环节,它决定了系统所能达到的识别精度和其他一些特性。由于签名
的书写本身比较复杂,单一的特征没有足够的能力反映出其间的细微差异,需将
多方面的特征配合使用,所以采用多类特征提取对提高整个系统性能是很有必要
的。一般综合多类特征得到的初始特征集的特征维数往往较高,而过多的特征存
在冗余,且大量无用特征会把有用的主要分类特征淹没,造成所谓“特征维数灾
难”。为了使签名图像包含的信息集中到维数尽可能少的特征向量上,同时又要
使这些低维特征向量具有尽可能好的模式可分性,就需要对提取出的初始特征
进行维数压缩。
初始特征集的提取是根据对签名图像特征的分类进行的。签名图像特征的分
类有多种方法,.啪把签名特征分为形状特征和密度特征,.
把签名特征分为全局特征和局部特征, ?把签名特征分为全局特征,
统计特征,几何及拓扑特征等。实际上,这些按不同方法分类的特
征之间并不是
截然分开的,而是相互关联的,如全局特征中也可能包含着几何或密度特征,而
部分纹理特征本身也是统计特征。所以签名图像特征的分类并不是绝对的,我们
可以从不同的需要来提取签名的特征。
在签名鉴别中降低维数常用的方法有主成分分析、奇异值分解、
基于准则的变换等线性变换方法啼糊。上述方法经实验证
明是成功的,但仍然有下列不足:没有明晰的投影矩阵,很难直接选取签名样
‘:。
本的特征;无法提取更有效的判别子空间。
针对上述问题,本文提出了一种基于保局投影的特征提取方法。
畸?别是一种最近提出的用于流形学习的算法,本质上它也是一种线形降维方
法,但它具有一般线性降维算法所不具备的流形学习能力。然而方法仍然属
于无监督学习方法,未能有效的利用样本的类别信息。本文在的基础上进行
改进,在目标函数中添加类间散布约束,将发展成有监督算法。这样充分利
用了样本类别信息,从而获取判别意义上的最优子空间。
本章在第二节先对签名图像提取形状特征、伪动态特征和纹理特征,得到一
初始特征集,再在第三节采用改进的保局投影对提取出的初始特征集进行变换,
得到较稳定的模式特征和较低的维数。第四节给出了部分实验结果。最后是本章中南人学硕:论文 第三章签名图像特征提取
小结。
.初始特征提取
特征提取对分类决策十分重要,特征的有效性直接影响到决策结果的正确
性。在本文中,特征提取的基本任务是从签名样本包含的信息中找出有效信息,
用这些有效信息来表示签名样本,这一过程直接影响到签名鉴别的效果。总体来
说应该选择那些使不同人的签名样本具有最大区别性的特征集合。本节主要介绍
从签名图像中提取的三类特征:形状特征、伪动态特征和纹理特征。
图.给出了本文提取的一个初始特征集所包含的特征。
签名图像
形状特征 伪动态特征 纹理特征
土
高宽比; 签名的高灰度
多通道??~
特征; 滤波;
黑点面积与总
面积比; 签名灰度级分 共生矩阵;
布直方图;
水平及垂直方
向的相对重 笔划宽度分布
心; 直方图;
水平及垂直方 签名骨架方向
灰度特征;
向上的笔划密
度特征;
图.签名图像特征分类
..形状特征
签名的形状特征是建立在笔划的基础上的,通常以笔划或笔划构
成的构件
之间的空间结构关系来描述签名,它是汉字结构的一种模型化的
直接反映。因此
形状特征可以反映出签名的本质特征,但是要准确的提取有效的
形状特征是比较
困难的。本文提取的形状特征有签名的高宽比、签名水平压缩后
的高宽比、黑点
面积与总面积比、水平及垂直方向相对重心、水平及垂直方向笔划密度特征、轮
廓倾斜方向向量特征。
.签名的高宽比中南人学硕.:论文 第三章签名图像特征提取
就是签名外边框的高度与宽度之比。一个人签名的高度和宽度比是相对稳定
的,可以作为一个特征。计算方法是:对二值图像从上下左右四边向内进行扫描,
去除四边空白后便可以得到签名的高和宽。在判断签名的边界时,为了避免遇到
小的噪声点时就停止扫描,我们规定一个扫描的阈值,即从外向内扫描的
过程中,若在连续两行中发现黑像素,则认为遇到边界。由于签名图像质量一般
较高,再经过二值化和平滑处理,噪声己经很小,阈值取就可以获得较好的效
果。
按中文签名的特点,一般都是宽度大于高度,因此,高宽比取值在和之间。
.黑点面积与总面积比
就是水平压缩的二值图像中黑点数量与总像素的比。它可以从侧
面反映出签
名笔划的特征。这一特征的提取比较简单。平滑处理后,水平压缩的二值图像签
名部分的高宽即为总面积,图像中黑点的个数即为黑点面积,两者之比就是所
求的特征量。该特征值也在和之间。
.签名水平及垂直方向的相对重心
该特征是统计二值化后签名的特征。重心计算方法如下:
?/?引力
?
?× 】/?只【,】
其中、分别是水平压缩签名图像的高和宽,。、分别是签名的垂
直和水平黑点投影密度。由于签名大小因人而异,因此签名重心会受到签名大小
的影响,比较合理的方式是采用相对重心。、,,大小也都在,’之间,
’
。
,,/
.水平及垂直方向上的笔划密度特征
笔划密度特征是指在文字点阵中,以不同的方向扫描文字,得到扫描和笔划相
交的次数,通常