为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

触屏设备上基于汉字部件间位置关系的输入法 精灵论文

2017-11-12 11页 doc 62KB 16阅读

用户头像

is_601191

暂无简介

举报
触屏设备上基于汉字部件间位置关系的输入法 精灵论文触屏设备上基于汉字部件间位置关系的输入法 精灵论文 触屏设备上基于汉字部件间位置关系的输入法 李松 北京邮电大学计算机科学与技术系~北京 (100876) E-mail:stevenlee1984@gmail.com 摘 要:如今触屏移动终端已经越来越普及。现有触屏设备上的中文输入法~其根本仍局限 在拼音和笔画输入两个方面~没有考虑汉字本身的结构和特点。本文提出了一种基于汉字部 件间位置关系的九宫格输入法~并对其实现方案进行了详细地阐述。最后~文章对九宫格输 入法的优点进行了总结~并对其后期工作进行了展望。 关键词:汉...
触屏设备上基于汉字部件间位置关系的输入法 精灵论文
触屏设备上基于汉字部件间位置关系的输入法 精灵论文 触屏设备上基于汉字部件间位置关系的输入法 李松 北京邮电大学计算机科学与技术系~北京 (100876) E-mail:stevenlee1984@gmail.com 摘 要:如今触屏移动终端已经越来越普及。现有触屏设备上的中文输入法~其根本仍局限 在和笔画输入两个方面~没有考虑汉字本身的结构和特点。本文提出了一种基于汉字部 件间位置关系的九宫格输入法~并对其实现进行了详细地阐述。最后~文章对九宫格输 入法的优点进行了总结~并对其后期工作进行了展望。 关键词:汉字,输入法,触屏设备 中图分类号:TP391.14 1. 引 言 触摸屏即根据显示屏面接触(如用手指、笔或其它物),靠后台来识别其位置的装置。 相对于传统的输入设备,配有触摸屏的控制系统更直观、简单、易操作。正是由于这些优点, 触屏在多媒体设备中得到了越来越广泛的应用。在手持终端中,触屏手机的出现也取得了良 好的市场效应。 输入设备的改变,也使得手机中传统的中文输入法发生了变化。现有的触屏手机中文输 ,存在着一些不容忽视的缺点。同时,值得注意的是,尽管中文输入法有了新的发展, 入法中 但是其本质依旧局限在拼音输入和笔画输入两个方面,对于汉字本身的结构特点没有考虑。 本文提出了一种触屏设备上基于汉字部件间位置关系的输入法。 2. 现有输入法介绍 传统的中文输入法主要有以下两种: [1], 拼音输入法: , 手机键盘上的一个键分布有三到四个英文字母,输入时,按照该汉字的读音输 入字母拼音,选取所要的汉字; , 其缺点在于用户需要有先验知识,即是说要学过拼音,如果不知道一个字的读 音,则不能输入,此外,由于汉字的同音近音字较多,单字重码率较高。 [2], 笔画输入法: , 手机键盘上有5类笔划,输入汉字时,用户需要按照手写汉字的笔画顺序,按 序输入笔划; , 其缺点在于用户需要知道汉字的正确笔画顺序,同时,由于笔画输入法要求一 笔一划书写,输入效率低,重码率高。 而在现有的触屏手机中,主要有以下几种中文输入法: , 基于虚拟QWERTY键盘的拼音输入法: , 在触屏手机中实现虚拟QWERTY键盘,按照拼音输入法输入汉字; , 该输入法不仅有拼音输入法固有的缺点,同时由于虚拟键盘毕竟不同于真实键 盘,其输入效率远远低于真实键盘的输入。 , 手写输入法: , 用触笔在屏幕上书写汉字,后台进行匹配,列出匹配结果及候选字以供用户修 正; , 其缺点在于输入效率较低,尤其是在输入一些笔划较多的汉字时,同时,书写 不规范时,后台的识别率不高。 , 基于虚拟手机按键的输入法: , 在触屏手机中实现虚拟的手机数字按键,模拟传统的按键式输入方式,在此不 再赘述。 如上所述,现有输入法从根本上还是局限在拼音输入和笔画输入两个方面,对于汉字本 身的结构特点没有考虑。汉字独体字少,合体字多。即是说,多数的汉字都是由多个“部件” 来构成的。所谓的部件,既包括了偏旁部首(如“亻”)和部分独体字(如“寸”),也包 括了那些没有命名却能构字的字符(如“乂”)。在汉字教学领域,关于汉字部件已有很多 [3,4]文讨论。汉字部件同样可以应用在触屏手机的输入法中。按照汉字的结构特点, 学者撰 各个构字部件按照一定的位置关系组合即能构成一个确定的汉字。 因此,本文基于汉字部件,通过引入位置关系码,对于触屏手机提出了一种全新的中文 输入法——九宫格输入法。 3. 九宫格输入法 根据汉字中部件与部件之间的方位关系,汉字的结构可分为12种: , 左右结构,如:挣、伟、休、妲 , 上下结构,如:志、苗、字、胃 , 左中右结构,如:彬、湖、棚、椭 , 上中下结构,如:奚、髻、禀、亵 , 右上包孕结构,如:句、可、司、式 , 左上包孕结构,如:庙、病、房、尼 , 左下包孕结构,如:建、连、毯、尴 , 上三包孕结构,如:同、问、闹、周 , 下三包孕结构,如:击、凶、函、画 , 左三包孕结构,如:区、巨、匝、匣 结构,如:囚、团、因、囹 , 全包围 , 独体结构,如:丈、甲、且、我 进一步归纳这12种结构,可以 [5]得到汉字的四种字型,如表一所示: 表 1 汉字字型表 Tab.1 Types of Chinese fonts 字型图示字例 左右汉 湘 结 到 上下字 室 花 碧 内外国 同 凶 过 启 句 乘 单体本 子 天 且 在对汉字字型的图示进行之后,笔者认为可以用九宫格来体现汉字各部件之间的位置关系。所谓九宫格,是在方格中划“井”字形,使成等分的九格,因九格的形位类似古代的 明堂九宫,故名。它是我国书法史上临帖写仿的一种界格,又叫“九方格”,即在纸上画出若干大方框,再于每个方框内分出九个小方格,以便对照法帖范字的笔画部位进行练字。 笔 者将九宫格引入到触屏手机的中文输入法中,输入的具体流程介绍如下:在屏幕中设 定一个九宫格拼接区域,用户从部件区域中选择所需部件放入到拼接区域的特定位置中。后台对拼接区内的部件以及部件之间的位置关系进行匹配,从而找到目标汉字。 整个输入的 过程有两个重要的环节:第一,待选汉字部件区的生成;第二,后台对部件 及部件间位置关系的匹配。下文中将围绕这两个环节的可行性和方法分别进行阐述。 3.1 汉字部件的提取 汉字部件的提取有多种方法。曾经广为使用的五笔字型输入法,就是在对一万多个汉字 进行拆分并对数万张卡片进行统计分析之后,提取出了130个字根。这里的字根也就是文中 提到的汉字部件。在即将颁布的文献3中规定,现代汉字常用字基础部件共有540个。这些部 [6]件可以构成《现代汉字常用字表》中的3500个常用汉字。 在实际应用中,由于手机屏幕面积有限,倘若部件个数太多,比如文献3中规定的540 个,不可能将这么多部件一次性地展示在屏幕上。就算分页处理,也会出现输入效率低、用 户体验差等问题。因此,这需要开发者按照特定的拆分原则对汉字进行拆分得到数量较少的 汉字部件。或者,开发者也可以借鉴已有的汉字部件表。例如,对上文中提到的540个部件 进行合理的优化合并,从而将部件个数控制在可以接受的范围内。 3.2 后台匹配 当用户将构字部件放入九宫格拼接区域内以后,后台就要开始对其进行匹配,从而在数 据库中寻找对应的汉字。整个匹配过程分为两步,首先对九宫格内的构字部件进行匹配;然 后对各部件之间的相对位置关系进行匹配。倘若两步都匹配成功,则认为找到目标汉字;反 之,若有任何一步匹配失败,则认为输入无效。 实现这个匹配的过程,笔者引入了部件码和位置关系码。 在成功提取出构字部件为了 以后,对各个部件添加唯一标识,最简单的方法就是给各个部件 按序编号。进而,就可以根据各个部件的编号进行第一步的匹配。在匹配的过程中,各部件 的编号按从小到大的顺序排列,形成部件码。比如,假设部件“木”的编号是3,部件“口” 的编号是9,那么在计算机中汉字“杏”的部件码就是3_9;倘若拼接区内待匹配字符的部件 码也是3_9,则认为第一步匹配成功。但是,经过第一步的成功匹配,计算机不能得出待匹 配汉字必然是“杏”的结论。这是因为,多个部件之间的位置关系也会影响到汉字的组成结 果。在前文提到的例子中,部件3在9的上方,构成“杏”字;倘若颠倒一下,部件9在3的上 方,就构成“呆”字。 由此可见,引入位置关系码进行第二步的匹配是必要的。所谓位置关系码,是采取某种 建码方式,对各个部件的位置关系进行编码的结果。在进一步的研究中,笔者提出了两种可 行的建码方式。 3.2.1 九宫格建码 这是一种同输入法紧密联系,利用九宫格本身的方格关系来进行建码的方法。建立位置 关系码之前,首先要对九宫格里的九格进行编号,如图1所示。 图 1 九宫格编号 Fig1 ID of Nine Patch 要将构字部件放入九宫格中,也就意味着对每一个构字部件本身也要进行大小、形状的 定义。如图2示,对一些部件的大小、形状定义举例如下: 图 2 汉字构件形状举例 Fig2 Examples of Chinese components 同时,为了保证位置关系码的唯一确定性,规定汉字部件在九宫格的布局始终从左上角的1号格开始。然后,通过记录每一个部件的左上角所在格的序号,就可以得到一组数字, 这只是位置关系码的构成元素。怎样组织这些数字呢,笔者认为,应当同第一步匹配中用到 的部件码对应起来。继续前文的例子,对部件按序编号后,将得到的汉字部件序号按从小到 大的顺序排列。部件码的一位代表了一个部件,而在位置关系码中的对应位则代表了该部件 在九宫格中的起始位置。通过这样的处理,就将部件码和位置关系码一一对应起来。依据以 上规定,图3举例列出了汉字“句”、“杏”、“呆”、“叵”的九宫格图和其位置关系码。 图 3 位置关系码举例 Fig3 Examples of Position Relation Code 九宫格建码更多地利用了汉字本身的结构特点。在进一步的研究中发现,全包围结构的汉字(如“困”)或者含有全包围结构的汉字(如“捆”),其部件在九宫格中的分布占据 较大空间。为此,也可以采取一些折衷的办法,巧妙解决这些问题。比如,假设国字框“囗” 占据除5以外的其他格,那么九宫格的空间就不能容下“捆”字的全部部件。这些复杂结构 的汉字,各部件之间的位置相对比较固定,我们可以特殊处理“囗”的大小,并且忽略次要 部件,只记录主要部件的位置关系即可。例如,规定“囗”只占后两列,同时记录“扌”和 “囗”的位置关系。以此规定,虽然汉字“洇”和“捆”位置关系码一样,但是其部件码不 一样,同样可以区分两个汉字。 3.2.1 九宫格建码 九宫格建码法实质上是以九宫格作为参考系,进而对位置关系建码,是一种绝对位置建 码法。而部件矩阵建码,是针对每个汉字的构字部件建立关系矩阵(Rational Matrix)。矩 素值反映了对应两部件之间的相对位置关系,是一种相对位置建码法。假如一个汉字 阵的元 包含m个构字部件,那么就可以建立一个m阶矩阵,行与列元素均为同序排列的m个构字部 件,行用i表示,列用j表示。元素值n反映了部件i与部件j之间的位置关系。 ij 根据前文中所提到的汉字的12种结构关系,对n的值给出以下定义: ij n= 0:部件i与部件j之间没有相邻,即无位置关系;ij n= 1:部件i在部件j的上方;ij n= 2:部件i在部件j的下方;ij n= 3:部件i在部件j的左方;ij n= 4:部件i在部件j的右方;ij n= 5:部件i被部件j所包含,对应了半包围及全包围结构;ij n= 6:部件i包含部件j。ij 依据以上定义,可以得出汉字“杏”与“呆”的部件矩阵如图4所示。 图 4 九宫格建码举例 Fig4 Examples of Nine Patch Code 应用部件矩阵可以有效地解决位置关系的建码问题。同时,这只是一个二维矩阵,阶数 有限。比如结构较复杂的汉字“赢”,其矩阵也只有5阶。通过观察不难看出,得出的关系 2 矩阵是一个稀疏矩阵,其复杂度小于0(n)。从复杂度上来讲,这种方法是可行的。 4. 九宫格输入法的优点 九宫格输入法充分利用了汉字本身的结构特点,让用户对汉字本身的构造一目了然。同 其他输入法相比,也有如下的显著优点: , 同拼音输入和笔画输入相比,对先验知识的强调要弱。即使不知道汉字的读音或者 其 书写笔画顺序,只要知道汉字的字型构造,同样能够输入。 , 重码率低。因为确定的部件及确定的位置关系唯一确定一个汉字,不会出现拼音输 入 中同音或近音字所导致的重码率高。 , 从输入效率上来看,九宫格输入法更加适用于触屏手机。使用虚拟QWERTY键盘 的 拼音输入法,用户要用触笔一个字母一个字母地点击,拼写出汉字的读音,比如 输 入汉字“张(zhang)”,要点击五个字母键。倘若用笔划输入法,要一笔一划 地 写,极端情况下要点击7次。倘若用手写输入就要较规范地写出整个汉字。而用 九宫格输入法,最优情况下,拖动两个部件就可以输入“张”。 , 从用户使用上来看,九宫格输入法更加适用于触屏手机。无论是用虚拟QWERTY 键 盘还是虚拟手机按键,用户的输入过程都是单纯地点击动作。而九宫格输入法要 求 用户选择部件,并拖动到拼接区域内,增强了人机交互性,用户能获得更好的操 控 感。 5. 总结及后期工作 笔者所提出的九宫格输入法主要针对触屏手持终端的中文输入,是一种基于汉字部件间 位置关系的输入方法,充分地应用了汉字本身所独有的结构特点。经过前文论述,该方法具 有可行性。同时,九宫格输入法中的技术也可以推广到其他类似文字的输入。当中用到的关 系矩阵还可以应用于记录并表示任何可拆分个体的各元素之间的位置关系。 参考文献 [1] 环达电脑(上海)有限公司(拼音输入法 [P](中国 CN200610026160.9,2007.10 [2] 陈凡凡(汉字笔画输入法 [P](中国 CN00133293.7,2001.8 [3] 张旺熹(从汉字部件到汉字结构 [J](世界汉语教学,1990,(02) [4] 崔永华(汉字部件与对外汉字教学 [J](语言文字应用,1997,(03) [5] 宁观林(汉字简易五笔输入法 [P](中国 CN02134627.5,2003.4 [6] 基础教学用现代汉语常用字部件规范(征求意见稿)[S](北京:教育部语言文字应用研究所,2003 An Input Method Based on Position Relation of Chinese Character Components in Touch-screen Device LI Song Beijing University of Posts and Telecommunications, Beijing 100876, China Abstract Nowadays, mobile device with a touch screen has become very popular, which also bring changes to the input method of this kind of device. Traditional Chinese input methods are still confined to Pinyin input method and stroke input method without concerning about the structure of Chinese characters. This paper provides a new method based on the position relation of character components called Nine Patch input method. Implementations in detail are also presented in this paper. Finally, advantages of this input method and future work are discussed. Keywords: Chinese Character, Input Method, Touch-screen Device
/
本文档为【触屏设备上基于汉字部件间位置关系的输入法 精灵论文】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索