脱机手写体汉字识别中细化特征提取和相似字识别算法研究

脱机手写体汉字识别中细化特征提取和相似字识别算法研究

ID:20463470

大小:128.00 KB

页数:6页

发布时间:2023-08-14 18:30:02

脱机手写体汉字识别中细化特征提取和相似字识别算法研究_第1页
脱机手写体汉字识别中细化特征提取和相似字识别算法研究_第2页
脱机手写体汉字识别中细化特征提取和相似字识别算法研究_第3页
脱机手写体汉字识别中细化特征提取和相似字识别算法研究_第4页
脱机手写体汉字识别中细化特征提取和相似字识别算法研究_第5页
脱机手写体汉字识别中细化特征提取和相似字识别算法研究_第6页
资源描述:

脱机手写体汉字识别中细化、特征提取和相似字识别算法研究中文信息处理汉字象形文字汉字的输入编码方案(拼音,五笔等)人机交互

1OCR系统有:TH—OCR、BI—OCR、SY—OCR汉字识别能否通过市场这一严峻的考验,主要取决于两个重要因素:识别方案是否具有较好的抗干扰能力,是否能适应实际应用环境中各种干扰噪声的影响,并保持较高的识别正确率,满足实际应用的要求识别系统是否可以根据用户和市场的需求,不断及时地改进系统的性能指标和使用环境,从而在激烈的市场竞争中取得一席之地。目前,印刷体汉字的识别率已经达到了99%以上,联机手写体汉字的识别率已经达到|了99%,但是脱机手写体汉字的识别率较低,还不能满足社会的迫切需求目前的脱机手写体汉字识别系统存在的主要问题有:识别结果受图像质量影响较大预处理和后处理在系统中的作用还需要不断加强对于自由书写汉字的识别仍然不能令人满意提取的特征区分能力较弱,难以适应不同字型的变换典型的脱机手写体汉字识别系统由前段数字化输入装置、预处理系统、识别系统和后处理系统四大部分组成进行脱机手写体汉字识别时,首先用输入装置将写在介质上的原始文本通过光电扫描仪等输入设备转换成二维图像信号(可以是灰度图像或二值图像):然后进行行、字切分,将整页版面的原始图像先按书写行分割开|后从每行中切分出单个汉字图像,送入单字识别部分进行处理。单字识别依次包括预处理、特征提取、匹配识别。其中,预处理通常有大小归一化、二值化、平滑、细化等:特征提取是从预处理后的图像中按一定的方式获取代表汉字特征的一组向量;最后,将汉字特征向量与模板特征向量按一定的原则进行匹配判决,以此确定待识汉字的类别。单字识别完成后对识别结果进行后处理,即对单字识别的结果利用语言知识等上下文先验信息进行确认或纠错。(1)手写体汉字风格众多,随意性较大,几乎无规律可循。特别市对于脱机手写汉字,不同的书写风格导致的汉字的变形差别很大,即使是同一个人使用不同的书写|笔或纸张等写出来的笔画也可能不一样。具体表现在:1、基本笔划变化,包括横不平、竖不直、直笔变弯、折笔的拐角变成圆弧等;2、笔划模糊,不规范,连笔部分断开了,不是连笔的地方却相连3、笔划与笔划之间的相对位置发生了变化4、笔划的倾斜角、笔划的长短、相对大小等发生了变化(2)汉字集合中相似字较多,很多汉字的差别仅为一点或一笔划,例如“大、犬、太”、“人、入”、“土、士”、“乌、鸟”、“己、已、已”等,并且由于手写变形的问题较普遍,所以手写体中相似字的区分比印刷体要困难得多。(3)汉字字形结构复杂,笔画最多的汉字有36划,汉字的平均笔划则为11划,由|于笔划多,使得较多汉字的结构十分复杂。特别市由于不同的人有不同的书写习惯,导致复杂的汉字结构难于识别脱机手写体汉字识别处理的仅是一些经过各种光电仪器扫描得到的二维汉字点阵图像,不含任何实时信息。这是脱机手写体汉字识别本质特征之一,也是脱机手写体汉字识别与联机手写体汉字识别的本质区别之一。

2细化,特征提取,相似字识别算法,匹配算法汉字的细化处理非常重要,因为在二值化点阵图像中,对识别有价值的汉字特征信息主要集中在汉字骨架上,细化后的汉字骨架能保留原汉字大部分特征,有利于特征提取。细化后骨架的存储量比原汉字二值化点阵要少得多,降低了处理工作量。|但是传统的细化算法往往会造成新的畸变,增加了对识别的干扰和困难,且算法本省也较耗时汉字细化的基本要求:保持原有笔划的连续性,不能由于细化造成笔划断开细化结果为单线,即细化后笔划宽度只有1bit保持原有字符的拓扑,集合特征,不应产生严重的畸变基于模板的细化算法时间复杂度较大(因此要再细化结果和细化速度之间进行权衡、折中,即模板不能太多,尺寸不能太多与结果要求相反)基于脊形点的细化算法基本思想先对原始图像进行非线性变换,将二维空间变换到三维空间,而后在变换得到的三维空间中寻找脊形点,并用一个隶属函数对脊形点赋值,最后算法根据对脊形点的赋值,选取有|效的脊形点作为笔段的端点,连接成字符的笔划骨架,以此完成对汉字字符的细化,能较好地处理粘连字符的切分,可能存在毛刺和胡须的现象传统的细化算法,汉字图像细化后都会对笔画结构产生不良影响,包括:交叉笔画畸变、转折处出现分叉笔划、失去短笔段和笔划合并等特征应具有的特点:对不同类别的汉字来说,他们的特征值应具有明显的差异同类的汉字的特征值应比较相近所使用的各特征之间彼此不相关,具有独立性由于汉字识别系统的复杂度将随特征个数的增长而迅速增大,因此要求提取的特征数量少特征分为三类:统计特征(全局特征和局部特征)、结构特征、两者的结合

3全局特征方法:全局|变换特征:对汉字图像进行各种变换,利用变换系数作为特征,常用的变换有二维傅里叶变换(2—Dfouriortransformation)、哈达玛变换(HadamTransformation)、快速变换(RapidTransformation)、霍夫曼变换(HoughTransformation)等不变矩(Moment)特征:一种线性特征,因其在尺度、平移和旋转等条件下的稳定性而被广泛应用于模式识别领域笔划穿透数目特征全局笔划方向特征:这种特征反应了在整个汉字点阵中笔划的复杂度、方向及连接关系背景特征:汉字图像的空白部分和周围笔划的关系也含有一定|的结构信息,提取背景点在各个方向的笔画密度作为背景特征,通常可选取位于汉字图像两对角线上的背景点全局特征方法的优点是对字符的局部畸变不敏感,缺点是会忽略某些重要的局部信息,尤其在区分相似字符时,还可以利用投影方法急性全局特征量统计。易提取、计算快,可以作为粗分类的依据局部特征方法提取时不利用汉字的结构信息,而且任何一种特征的计算都只限于字符图像中一个局部的区域范围之内,即通过提取局部图像的信息来组成描述汉字的特征,或者将汉字点阵图像分割成不同区域或网格,在各个小区域内分别抽取统计特征包括:局部笔画方向特征细胞特征相补特征方向线素特征Gabor|特征:gabor函数能够最好地兼顾信号在时域和频域中的分辨能力,用g

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1、本文档共6页,下载后即可获取全部内容。
2、此文档《脱机手写体汉字识别中细化特征提取和相似字识别算法研究》由用户(巴士用户..)提供并上传付费之前 请先通过免费阅读内容等途径辨别内容,本站所有文档下载所得的收益全部归上传人(卖家)所有:如有侵权或不适当内容,请进行举报或申诉。
3、所有的PPT和DOC文档都被视为“模板”允许上传人保留音节日灵结构的情况下删减部份的内容,下裁前须认直查看,确认无误后再购买。
4、欧宝真人·(中国)科技有限公司网仅提供信息存储空间,仅对用户上传内容的表现方式做保护外理,无法对各卖家所售文档的直实性,完整性,准确性以及专业性等问题提供审核和保证,请谨慎购买。
5、本站文档的总页数,文档格式和文档大小以系统显示为准(内容中显示页数不一定正确),网站客服只以系统显示页数,文件格式,文档大小作为仲裁依据。

文档提供

发布者:巴士用户..

上传时间:1970-01-01 08:00:00

认证主体:刘**(个人认证)

IP归属:重庆 重庆市

相关标签

文档提供

发布者:巴士用户..

上传时间:1970-01-01 08:00:00

认证主体:刘**(个人认证)

IP归属:重庆 重庆市

相关标签