文本图像的几何畸变校正技术研究
姓名:吴丽平申请学位级别:硕士专业:通信与信息系统指导教师:于明20091101
分类号:UDC:
TP391
密级:编号:
学位论文
文本图像的几何畸变校正技术研究
吴丽平
指导教师姓名:申请学位级别:
于明硕
士
教授河北工业大学
学科、专业名称:
通信与信息系统
论文提交日期:2009年11月学位授予单位:
论文答辩日期:2009年12月
河北工业大学答辩委员会主席:评
阅
人:
2009年11月
DissertationSubmittedtoHebeiUniversityofTechnology
for
TheMasterDegreeofCommunicationandInformationSystems
RESEARCHONGEOMETRICDISTORTIONCORRECTION
TECHNOLOGYFORDOCUMENTIMAGE
byWULiping
Supervisor:Prof.YUMing
November2009
文本图像的几何畸变校正技术研究
ii
文本图像的几何畸变校正技术研究
摘要
在使用扫描仪或数码相机获得文本图像时,由于文本表面倾斜、弯曲或人为操作时产生的拍摄视角的倾斜等原因,使所得到的文本图像存在几何畸变,这些畸变对文字处理软件如OCR识别、数字文档版面分析等的识别和分析工作带来极大的困难,可能会导致这些软件根本无法识别该文本图像。因此,必须对变形文本图像进行必要的校正。目前,已经有很多几何畸变校正的方法应用于畸变的文本图像。但是这些方法都是针对某一种或两种几何变形有效,而没有绝对通用的算法,需要对不同变形类型的图像采取不同的有效校正算法。
为实现几何畸变文本图像的自动校正和批量处理,论文在讨论文本图像二值化、去噪技术的基础上,重点对文本图像几何畸变的自动检测及分类的方法进行研究。提出了基于数学形态学理论与曲线拟合方法的自动检测和分类方法,实现对文本图像几何畸变的自动检测并对其畸变类型进行分类,为后续的几何畸变自动校正奠定了基础。然后论文分别针对倾斜变形、透视变形和扭曲变形三种典型畸变文本图像,在对现有的校正算法原理、性能及适用范围进行分析的基础上进行了研究,并提出了一些改进方法。
在Matlab环境中对文本图像几何畸变自动检测及分类算法进行了验证,试验结果表明该算法能有效检测和识别文本图像的几何畸变及其类型,检测识别率达到96%以上,尤其是对扭曲变形的文本图像识别率很高。且该算法实现简单,计算量小,并具有较强的鲁棒性。然后通过试验比较文本图像校正前后的OCR文字识别率,分别对三种变形文本图像几何校正算法的改进算法进行了验证。结果表明,与原有算法相比,改进算法所得校正图像的OCR识别率不低于原有算法,但所用时间降低,基本满足实时性要求。在数字化和信息化的现代,该文本图像几何畸变自动校正系统具有广阔的应用前景。
关键词:OCR,文本图像,几何畸变,倾斜变形,透视变形,扭曲变形,数学形态学
iii
文本图像的几何畸变校正技术研究
RESEARCHONGEOMETRICDISTORTIONCORRECTION
TECHNOLOGYFORDOCUMENTIMAGE
ABSTRACT
Whenobtainthedocumentimagesusedascannerordigitalcamera,thereislikelytoexistgeometricdistortionsbecauseofthebendingofdocumentorthetiltinshootinganglecausedbyman-madeoperations.Thesedeformationscreategreatdifficultiesforword-processingsoftware,suchasOCRrecognitionordigitaldocumentlayoutanalysis,evenmayleadtothesoftwaredonotworkatall.So,thedocumentimagesmustbecorrectedbeforethat.Atpresent,therearealreadyalotofcorrectionmethodsappliedtogeometricdistortiondocumentimage.However,thesemethodsareeffectiveagainstonlyoneortwokindsofgeometricdistortion,andthereisnoabsolutegeneralalgorithm.Therefore,weneedtotakedifferentapproachesfordifferentdeformation.
Toachievetheautomaticdocumentimagegeometricdistortioncorrectionandbatchprocessing,thispaperputanemphasisontheautomaticdetectionandclassificationmethodtogeometricdistortionofdocumentimages,basedonthetechniqueofdocumentimagebinarizationandde-nosing.Thealgorithmcombinesthemathematicalmorphologyprocessingandcurvefittingmethods,todetectthegeometricdistortionofdocumentimagesandclassifythetypesoftheirdistortionautomatically,whichlaidfoundationforautomaticcorrectionofgeometricdistortionfollowing.Andthensomeexploratoryresearchhadbeendoneonthecorrectionalgorithmstodocumentimageswithgeometricdistortion,whichincludesinclinationdeformation,perspectivedistortionandtorsiondeformation,basedontheanalysisofthetheory,performanceandscopeofapplicationofexistingalgorithms.Combinedthedetectionandclassificationmethod,wemadesomeimprovementinthecorrectionalgorithms.
ExperimentshadbeendonetotheautomaticdetectionandclassificationmethodofdocumentimageswithgeometricdistortionintheMatlabenvironment.Anditwasverifiedbyexperimentalresultsthatthealgorithmhashigherrecognitionratereached96%ormore,especiallyforthetorsiondeformation.Andthealgorithmissimple,withsmallamountofcomputation,andhasstrongrobustness.Thenthethreekindsofgeometricdistortioncorrectionalgorithmswithimprovedwereverified,throughcomparedtheOCRrecognitionratesbeforeandaftercorrectionofthedocumentimagerespectively.Theresultsshowedthattheimprovedalgorithmeffectivelyreducetheruntimetobasicallymeetthereal-timerequirements,withoutdecliningtheOCRrecognitionrates.Inthedigitalandinformation-basedmodern,theautomaticallygeometricdistortioncorrectionsystemtodocumentimagehasbroadapplicationprospects.KEYWORDS:OCR,Documentimage,Geometricdistortion,Inclinationdeformation,
Perspectivedistortion,Torsiondeformation,Mathematicalmorphology
iv
目录
第一章绪论·····················································································································································7
§1-1论文选题的背景及意义·······················································································································7§1-2文本图像几何畸变校正技术的国内外发展现状···············································································2
1-2-1线性倾斜变形文本图像的校正·································································································21-2-2非线性畸变——透视变形和扭曲变形文本图像的校正························································3§1-3本文的研究内容及组织结构···············································································································4第二章文本图像的预处理技术····················································································································5
§2-1文本图像的去噪···································································································································5
2-1-1空域法与频域法························································································································5
2-1-2文本图像去噪的方法················································································································6§2-2文本图像的二值化·······························································································································7
2-2-1图像二值化的基本方法·············································································································72-2-2本文采用的二值化方法···········································································································10§2-3本章小结··············································································································································11第三章文本图像几何畸变的自动检测与分类··························································································12
§3-1文本图像几何畸变的类型·················································································································12§3-2文本图像几何畸变的自动检测与分类方法的研究与实现····························································13
3-2-1二值文本图像的形态学滤波···································································································143-2-2基于数学形态学的游程涂白(黑)处理··············································································183-2-3对游程图白游程连通域的标记······························································································203-2-4白游程有效区段的筛选··········································································································213-2-5文本行特征点的提取··············································································································223-2-6文本行曲线拟合及特征参数的提取······················································································233-2-7文本图像几何变形的检测与分类的实现··············································································23§3-3实验结果与算法评析·························································································································24§3-4本章小结·············································································································································24第四章几何畸变文本图像的校正技术······································································································25
§4-1倾斜变形文本图像的校正·················································································································25
4-1-1文本图像线性倾斜检测技术·····································································································254-1-2文本图像线性倾斜的旋转校正·································································································29
4-1-3算法评析·····································································································································31§4-2透视变形文本图像的校正················································································································31
4-2-1透视文本图像潜在文本框顶点的确定···················································································324-2-2基于单应矩阵的透视变换········································································································334-2-3算法评析·····································································································································33§4-3扭曲变形文本图像的校正················································································································34
4-3-1基于图像特征构建模型的文本图像恢复算法·······································································344-3-2基于文字信息的文本图像恢复算法·······················································································374-3-3算法评析·····································································································································38
v
文本图像的几何畸变校正技术研究
§4-4本章小结·············································································································································39第五章总结与展望·······································································································································40
§5-1论文工作的总结·····························································································································40§5-2展望·················································································································································40参考文献·······························································································································································42致谢·····································································································································································44攻读学位期间所取得的相关科研成果··············································································································45
vi
第一章绪论
§1-1论文选题的背景及意义
信息化社会的到来使得文档电子化成为一种趋势和潮流。现如今,数字化的存储方式以其易于保存、方便处理和占用空间少的优点,已被应用于社会工作生活等各个领域,且其应用范围正在不断扩大。与此同时,伴随着互联网和个人计算机的普及,在日常的工作和学习中,使用单纯的键盘、鼠标等输入技术已经远远不能够满足人们对文本资料处理的快速及时的需求。于是,人们找到了解决信息录入的快速有效的方法,即将书籍等大量文本资料用图像扫描或数码拍照等方法得到其文本图像,然后再对其进行文字识别,得到电子文档。另外为了将过去保存的一些纸质文献资料数字化,以及能够长久无损地保存,这也是很有效的方法。
如上所述,随着现代科技的迅速发展,数字化文档被广泛应用于工业自动化、数字化图书馆、办公自动化等领域,文字识别的应用也越来越广泛,而用以进行文字识别的文本图像过去大部分都是通过扫描仪获取。但传统扫描仪体积大、效率低、携带不方便等不足之处日益突出。相反,数码照相机具有体积小、使用方便、价位低等优势,可以很容易地携带并结合到手提电脑、手机以及各种网络设备中去,它还可以远距离地对背景文字或脆弱的珍贵文档拍照,更适用于无约束的自由环境下的数字化操作。另外,近几年具有摄像功能的电子产品,尤其是拍照手机不断普及,获得日常生活中带文字信息的图像变得非常容易,举一个应用的例子:如果为拍照手机提供文字提取、识别、录入和翻译等强大功能,那么出游国外的旅客,通过拍照文本文字或路牌等文字信息,结合电子地图等其他工具,就有了一个方便的导游设备。所以,对于大多数使用者来说,与扫描仪相比数码相机是一种更方便有效的图像输入工具。Fisher等调查了在战场上用数字摄像机替换士兵携带的sheet-fed扫描仪的可能性,经证实,数字摄像机能够以200dpi拍摄整张A4文档纸,已经达到OCR所要求的分辨率。另外,Newman的调查表明:从报纸上提取段落时,基于PC摄像头的OCR(光字符识别)操作比基于扫描仪的OCR操作效率要高得多。因此,将数字照相机引入文档图像分析和文本识别的技术已经引起越来越多人的关注。在过去的20年中,基于摄像机的文档分析已经有了一定的应用,如自动阅读执照、危险标志识别、书籍杂志分类、货运车ID、公路挂牌等等[1]。
然而,用数字照相机拍摄的文本图像也有新的问题需要解决。例如当文档表面弯曲变形时,数字相机拍到的文字及图形图像将会产生几何畸变,而在扫描仪中,文档被按压在扫描板上,这一问题并不十分严重。文本图像的变形对后续处理工作,如OCR(OpticalCharacterRecognition)识别、数字文档的版面分析、格式处理带来极大困难,可能会导致这些软件根本无法识别该文本图像。因此必须首先通过图像校正的方法对这种变形图像进行必要的校正[2]。
使用数码设备拍摄文本图像时,引起文本图像几何畸变的主要原因有:1、文本本身的倾斜(印刷装订等);2、人为操作时产生的倾斜;
3、拍摄视角的倾斜:由于人为因素使得视频捕捉介质平面和物体平面之间存在有一定的转角和倾斜
角。转角对图像的影响为发生旋转,倾斜角的影响表现为图像发生透视变形;
。4、文本本身的弯曲(书籍厚度、物面不平整等)
根据产生原因和文本图像几何畸变的特征,图像几何畸变大致可分为线性几何畸变和非线性几何畸
变。通常情况下,前者指缩放、平移、旋转等畸变,即图像畸变的表现形式是直线性倾斜;而非线性几何畸变由成像面和物平面的倾斜、物平面本身的弯曲、光学系统的像差造成的畸变,表现形式是曲线性弯曲,即表现为物体与实际的成像各部分比例失衡[3]。
vii
文本图像的几何畸变校正技术研究
对于文本图像,线性畸变是指倾斜变形,而非线性畸变通常包括透视变形和扭曲变形。当像平面与被拍摄文本的物平面平行时,如果被拍摄的文本放置不正,与镜头有一定角度则会产生第一种变形,称为倾斜变形。在倾斜变形文本图像中,文字行曲线近似直线并且相邻文字行仍保持着平行关系;当像平面与被拍摄文本物平面不平行时,则会产生透视变形。发生透视变形的文本图像,文字行曲线仍然近似直线,但相邻文字行并不保持平行关系;当文本表面发生弯曲时,则会产生第三种几何变形,称为扭曲变形。扭曲变形文本图像的文字行曲线既不保持直线特性、相邻文字行也不保持平行状态。如图1.1所示。
图1.1.1倾斜变形图1.1.2透视变形图1.1
几何畸变文本图像样张
图1.1.3扭曲变形
Fig.1.1Samplesofthedocumentimageswithgeometricdistortion
这些几何畸变严重影响了文字识别技术的应用和发展。目前,已有很多几何畸变校正的方法应用于几何畸变文本图像,接下来将进行简要介绍。
§1-2文本图像几何畸变校正技术的国内外发展现状
现有的国内外文本图像校正方法都是针对某一种或两种几何变形有效,而没有绝对通用的算法,需要对不同变形类型的图像采取不同的有效校正算法。下面分别对线性和非线性文本图像几何校正技术的国内外发展现状做简要分析。1-2-1线性倾斜变形文本图像的校正
线性倾斜变形文本图像校正的一般方法是:先检测文本的倾斜角度,然后根据倾斜角度对图像进行逆向的旋转。所以线性倾斜变形文本图像校正的关键对其倾斜角度的检测。
迄今,国内外学者提出了很多文本图像倾角检测的方法,归纳起来主要有投影特性法、近邻法、Fourier变换法、交叉相关法和Hough变换法。1)投影特性法
对文本图像进行不同角度的投影测试,在得到的一系列结果中提取最佳的投影结果,从而估算文本图像的倾斜角。基于投影的方法利用投影的某些特征进行判断,如均方差、第一特征矢量以及梯度等统计特性。但是,由于需要对整个图像统计特征值,因此计算量和复杂度都较高。而且当倾斜角较大时,不能保证校正精度。2)近邻法
首先找出所有连通区中心点的K个最近邻,计算每对邻近点的矢量方向并统计生成直方图,则直方图的峰值即对应于整个页面的倾角。例如用近邻法找出临近汉字的矩形,取一行汉字矩形中心点,再用最小二乘法拟合直线,最终检测出倾斜角。但是由于在文本图像中连通成分较多,该算法较为费时。3)傅立叶变换法
傅立叶空间密度最高的方向就是要求得的图像倾斜的角度。Fourier变换方法是利用页面倾角对
2
应于使Fourier空间密度最大的方向角的特性,将文本图像的所有像素点进行Fourier变换。这种方法的缺点也是计算的空间和时间的复杂度太高,计算量非常大,目前很少采用。4)交叉相关法
基于文本区域同一行像素相关统计特性,计算固定距离间竖直扫描线上像素点的分布,生成相关矩阵,实现倾斜校正。此类方法的缺点是计算量较大。基于此方法,M.Chen[4]等提出的改进算法解决了文字行的主方向变化和文本中包含图表的问题,准确度较高,但精度较低。5)Hough变换法
最常用的检测倾斜角方法,传统的标准变换虽然具有不依赖于直线连续性、对噪声不敏感的优点,但由于计算量偏大,速度慢,在实用时有较大的局限性。针对这一缺点,一些专门用于倾角检测的Hough变换改进算法被提出来,虽然这些算法的核心思想是减少Hough变换的数据量,但由于Hough变换本身计算量较大,因此改进算法的速度仍较慢。
此外,还有一些其他的倾斜估计方法,如矩形块邻接图(B1ockAdjacencyGraph,BAG)算法、基于子空间直线检测法、基于梯度分析法、基于Fourier谱分析法、神经网络法等。因为并不是常用算法,本文不做具体研究。
1-2-2非线性畸变——透视变形和扭曲变形文本图像的校正
对于图像的非线性几何畸变校正国内外的研究资料还很少,而这种畸变是不可避免的,因此非线性畸变的校正问题是以后研究的重点。对于该类几何畸变的校正方法,一般思路是根据一些已知的、无失真图像的某些像素点和畸变图像像素的坐标间的对应关系,拟合出畸变图像与无失真图像的对应变换关系式,作为恢复其他像素的基础。文本图像的非线性几何畸变有其自身的特点,据此,一般通过选取若干畸变特征点,然后通过插值进行畸变曲线的拟合,利用拟合曲线函数求出畸变校正的数学关系式。(1)对单纯由于拍摄角度引起的文本图像透视变形的校正
由于拍摄角度存在倾斜角和转角,使得拍摄的文本图像由矩形变成任意四边形,产生透视变形。有文献提出,在透视变形的文本图像中文字区潜在文本框是一个凸四边形,它对应于原文本中的是一个矩形。应用这个凸四边形与矩形的对应关系可以确定透视变换的单应矩阵,可以应用该单应矩阵实现对透视文本图像的校正。另有文献提出一种方法,首先利用Radon变换和大津算法提取几何畸变的图像边缘轮廓,利用轮廓顶点坐标,计算矩形的纵横比;然后求得畸变校正矩阵,对畸变图像进行校正;最后利用印刷体数字识别算法判断是否需要对校正后的图像进行旋转。
(2)对单纯由于文本自身弯曲引起的无法预知模型的文本图像扭曲变形的校正
这种畸变是由成像面和物平面的倾斜、物平面本身的弯曲等造成,表现为曲线性弯曲。一种常见的解决办法是多项式变形技术,其实质是利用数值分析的办法求解几何变换方程。优点是不需要预先知道成像模型,对复杂的曲面畸变也能够进行矫正。缺点一是这种方法对多项式的次数和控制点的选取要求严格,发生矫正失控的概率很大,不适用于一些只存在透视变形的图像,二是运算量大,不适用于实时性要求较高的系统。另外,针对文档表面易发生弯曲变形从而影响文本图像识别率这一问题,有文献提出通过提取典型文本线或文档边缘线作为特征信息,利用几何成像原理得到文本行曲线与其图像的映射关系,进而建立模型恢复文档表面形状,并运用参数化插值的方法实现变形文本图像的校正。
在国外已经有人提出了一些针对这种视觉变形文本图像的校正技术。张等[5]提出了一种基于圆柱面模型的积厚文本的校正方法,该方法假设积厚文本表面为圆柱面,然后根据文字行曲线构建圆柱面模型从而实现变形文本图像的恢复。该方法简单有效,但它要求柱面的母线与像平面平行。还有人提出了一种新的文本图像校正技术,但是由于该方法中涉及到文字行趋向计算以及可展面估计,速度比较慢。另外有人提出了一种基于切分的视觉变形文本图像的校正技术,该方法通过寻找文字的竖直笔画边界(VerticalStrokeBoundary,VSB)、文字行的上、下边界,然后根据文字块的上、下边界和VSB构成的小四边形进行校正。该方法对英文文本图像校正效果颇佳,但因为需要提取文字的VSB,所以应用于汉字文本图像效果不太理想。
3
文本图像的几何畸变校正技术研究
§1-3本文的研究内容及组织结构
本文针对文本图像可能存在几何畸变从而影响版面分析和OCR等文本识别结果这一现实问题进行了文本图像几何畸变校正的研究。现有的图像几何校正算法都是针对某一种或两种几何变形有效,而没有绝对通用的算法,需要对不同变形类型的图像采取不同的有效校正算法。为了实现文本图像几何畸变校正的批量化处理和实时处理,在对文本图像进行畸变校正前实现文本图像几何畸变类型的自动辨识是非常必要的。因此,本文提出了一种以数学形态学处理与曲线拟合为基础的文本图像几何畸变类型的自动检测和分类方法,并通过分析有关的研究报告和科研论文,分别针对各种类型几何畸变校正算法进行了综合分析比较以及提出了一些改进算法。
文章内容按以下章节安排:
第一章:首先介绍了选题的背景和意义,然后文本图像几何畸变校正技术的国内外发展现状,最后介绍文章的研究内容和组织结构。
第二章:介绍文本图像预处理的相关技术,包括文本图像的平滑去噪处理和文本图像二值化的方法以及本文所采用的方法及其效果。
第三章:文本图像几何畸变类型的自动检测和分类。首先根据几何畸变产生的原因及变形特点介绍了文本图像几何畸变的类型,然后主要介绍了本文的重点:一种以数学形态学理论与曲线拟合方法为基础的文本图像几何畸变类型的自动检测和分类方法的实现算法。最后一小节根据试验结果对提出的算法做了简要评析。
第四章:分别研究了倾斜变形、透视变形和扭曲变形文本图像的几何校正的现有典型算法的原理、性能及适用范围等,然后以本文所提出的畸变类型自动检测与分类方法中所得文本行特征信息为基础,对现有校正方法提出了改进措施,最后通过试验,分别根据OCR软件对校正前后的文本图像的文字识别率,验证了校正算法的有效性。
第五章:工作总结及展望。
4
第二章文本图像的预处理技术
文本图像预处理的主要内容有:对原始图像的噪声去除、二值化以及几何畸变校正。图像预处理的效果会直接影响后续处理的难易及结果的准确性。所以图像预处理在文本图像处理如OCR、文档版面分析等后续操作中是很重要且关键的一步。本章主要介绍图像噪声的去除和图像的二值化,图像的几何畸变校正作为本文的研究重点,将在后续章节中讨论。
§2-1文本图像的去噪
无论是原始的文本图像还是经过二值化处理的文本图像,由于在获取过程中受到各种干扰的影响,使得所得图像质量有所下降,难免存在噪声。这些噪声会使各种算法或软件对图像的分析造成困难,因此必须对文本图像噪声去除的处理,其目的主要有两个:一是改善图像质量使图像二值化的阈值选取更加简单,二是消除干扰像素点突出图像特征信息便于后续的特征提取。2-1-1空域法与频域法
图像平滑去噪处理方法有很多,主要分为空域法和频域法两大类[6],下面分别介绍其典型代表算法邻域平均法和低通滤波法:(1)邻域平均法
邻域平均法即空域滤波法,是设被讨论的像素的灰度值为F(j,k),以此像素为中心,窗口内的像素组成的点集用A表示,像素数用L表示。使用邻域平均法滤波,像素F(j,k)对应的输出如式(2.1)所示:
G(j,k)=
1
∑F(x,y)L(x,y)∈A(2.1)
即用窗口所有像素点的平均灰度值取代像素点(j,k)的原灰度值。
采用邻域平均法对图像进行平滑处理时,邻域平均法的平均作用会引起模糊现象,且模糊程度与所选的邻域半径成正比。相较于邻域平均法的这一缺点,阈值法可以减少由于邻域平均所产生的模糊效应。其公式如式(2.2)所示,其中T代表非负的图像阈值:
⎧1
⎪∑F(x,y);
G(j,k)=⎨L(x,y)∈A⎪
⎩F(j,k);
F(j,k)−
其他
1
∑F(j,k)>TL(x,y)∈A(2.2)
这个表达式的物理意义是:当被考察像素点与其邻域内的像素点的灰度值的平均值之差小于等于规定的阈值T时,就保持其原灰度值不变;如果大于阈值T,被讨论像素点的灰度值就用这个邻域内像素点灰度的平均值来代替,这样就可以大大减少由于平滑去噪而带来的模糊的程度。(2)低通滤波法
一般情况下,在空域内可以用空域滤波法来减少视觉噪声;另外,图像噪声的频谱大部分分布在高频段,所以也可以在频率域内采用各式各样的多种低通滤波的方法来减少图像噪声。
在频率域中,基本的“滤波”模型由下式给出,
5
文本图像的几何畸变校正技术研究
G(u,v)=H(u,v)F(u,v)
(2.3)
式中F(u,v)是对含有噪声的图像进行的的傅里叶变换,H(u,v)是滤波器传递函数,G(u,v)是对平滑处理后的图像进行傅里叶变换的结果。低通滤波的做法是选取一个合适的滤波器传递函数
H(u,v),通过衰减F(u,v)的高频成分得到G(u,v),然后再对G(u,v)做反傅里叶变换就得到了我们所需要的平滑图像g(x,y)。根据前面的分析推断H(u,v)应该具有低通滤波特性,所以这种方法被称
作低通滤波法平滑化处理。低通滤波平滑化处理的流程如图2.1所示:
傅里叶变换FFT滤波函数H(u,v)反傅里叶变换IFFT前处理F(u,v)G(u,v)后处理f(x,y)输入图像g(x,y)滤波后图像
图2.1线性滤波器处理流程
Fig.2.1Theblockdiagramoflinearfilterprocessing
低通滤波常用在字符识别和印刷出版业等领域,它对污点、折痕和由于断裂纸面所引起的字符断裂也能起到很好的修复作用。
邻域平均的方法可以直接在图像上进行滤波运算,低通频域滤波则是用FFT变换将原图像转换到频率域,将其结果乘以一个滤波函数后再变换回到空间域。由于要进行两次傅立叶变换,计算量大,所以相比较而言,不如直接的空域滤波应用领域更广泛。所以本文采用空域滤波法中的两种简单算法对文本图像进行去噪处理。2-1-2文本图像去噪的方法
本设计中采用平滑中值滤波和形态学滤波相结合的方法,在图像二值化前后对图像进行处理。下面对中值滤波和形态学滤波这两种噪声去除方法分别进行介绍:(1)中值滤波法
中值滤波是抑制噪声的非线性方法,它采用被讨论像素点的相邻像素的灰度值中值来代替该像素的灰度值,中值滤波有一维方式和二维方式两种:
一维形式的中值滤波器是一个含有奇数个像素的滑动窗口,经排序后,窗口像素序列发生改变。一般来说,二维中值滤波器比一维中值滤波器更能抑制噪声,二维中值滤波的窗口可以有多种,如十字形、线状、方形、菱形、圆形等,而且不同形状的窗口具有不同的滤波效果,经过大量的实验可以得到如下的结论:十字形窗口优选于有顶尖物体的图像,而方形或圆形的窗口适宜于外廓线较长的物体图像。
在使用的时候必须根据图像的内容和不同的目的要求加以选择,目前中值滤波方法的使用非常普遍,且中值滤波器用来滤除噪声的方法有很多,并且十分灵活,一种是迭代操作,就是对输入图像重复进行同样的中值滤波,直到输出不再有变化为止,另一种方法是一维滤波器和二维滤波器交替使用,此外还有先使用小尺度窗口,而后加大窗口尺寸,直到中值滤波器的坏处多于好处为止,但中值滤波不宜用于线、尖顶等细节多的图像,中值滤波的优点在于对点状噪声和干扰脉冲之类的随机图像噪声有较好
6
的抑制作用,且相比较其他的去噪方法而言,能很好的保留图像的边缘轮廓信息。(2)数学形态学滤波法
形态学滤波是一种非线性滤波技术,具有较好的结构滤波性质。形态学的基本运算是膨胀和腐蚀,膨胀运算能保持原图的基本形态,填充原图边界上那些不光滑的凹陷部分,且运算结果比原图大,腐蚀运算也能保持原图的基本形态,消除原图边界上那些不光滑的凸起部分,且运算结果比原图小,膨胀和腐蚀又互为逆运算,将其结合使用形成图像的开启和闭合运算。用开运算处理图像,可以剔除结构元的细节,平滑边界,切断狭细边缘,消除尖峰凸缘,用闭合运算同样平滑边界,并消除凹沟,填充小孔等,因此运用开启运算可去除分割处理后区域内形成的孔噪声,闭合运算则可以去除图像背景上的点噪声。另外,形态开启和闭合运算结合使用可以去除特定的图像的细节,而不产生全局几何失真,因此,形态学滤波不仅可以去除图像噪声、平滑图像边界,也方便了对图像的后续处理[7],传统的形态学滤波器包括形态开滤波器、形态闭滤波器、开一闭滤波器和闭一开滤波器,在实际应用当中,为达到最佳滤波效果,需结合图像的拓扑特性和实际要求选择形态开启、闭合运算的复合方式。
二值文本图像具有自己的特点,其噪声通常是指斑点和空洞。所谓斑点是指图像中的毛刺、污点之类的与文本无关的内容,可能是在图像获取过程中或由于光照不均匀而引入的,呈点状,相对笔画较小。而所谓空洞是指图像中小的像素缺失,一般在笔画当中,被“1”像素包围,形态学滤波恰好适合去除这类噪声。因此,由于文本图像自身的特点且为适应本设计低消耗、高质量的需求,本设计中采用平滑中值滤波和形态学滤波相结合的方法,在图像二值化前后对图像进行处理。关于数学形态学的运算及在本设计中的具体应用将在稍后章节中详细介绍。
§2-2文本图像的二值化
印刷或书写在纸上的文字油墨的颜色不同或深浅度各异等,有时纸上还会不可避免的出现污点,比如渗墨、水印等。另外,作为输入装置的数码相机或扫描仪,可能会在输入图像时存在不均匀的亮度。所有这些因素都可能会使被处理图像是一个深浅分布不均匀的多值图像,在我们提取文本图像文字行曲线特征前,需要把文字从背景中彻底分离出来。为了尽可能少地减少背景像素的干扰,常常直接把图像分为目标和背景两部分,即对图像进行二值化处理。通常目标像素值为1,背景像素值为0,也就是整个图像呈现出明显的黑白效果。
图像的二值化处理可以由式(2.4)来说明:
⎧1,
f(i,j)=⎨
⎩0,
f(i,j)≥t时f(i,j) 其中t为二值化的阈值,当采样点(i,j)的灰度值f(i,j)≥t时,f(i,j)=1表示文字图像部分,当采样点(i,j)的灰度值f(i,j) 全局阈值法指利用图像的全局信息即整体特征参数对图像求出最佳的分割点,可以是单阈值也可以是多阈值。典型且常用的全局阈值选取方法有迭代法和Otsu算法。 (1)迭代法 迭代法是一种常用的求解最佳阈值的方法。其基本思想是:首先计算该图像的灰度直方图,选择整幅图像所有像素灰度范围的中值作为初始阈值T0,用初始阈值T0将图像的像素点分成两个部分,然后按照公式(2.5)进行迭代运算: 7 文本图像的几何畸变校正技术研究 Ti+1 L−1i⎧Ti⎫ h•l⎪∑hl•l∑l⎪ ⎪l=T+1⎪=K⎨l=0Ti+Tii⎬ ⎪hlhl•l⎪∑∑⎪⎪l=Ti+1⎩l=0⎭ (2.5) 式中hl是灰度为l值的像素个数,在此设图像共有L级灰度值。将Ti+1 作为新的全局阈值代替上一步所得的阈值Ti,迭代一直进行到Ti收敛,即Ti+1=Ti时结束,取迭代结束时的Ti(按四舍五入进行调整)为最终分割阈值T。通常K取0.5。 经试验比较,如果图像的直方图具有明显的双峰,且谷底较深,那么迭代方法能够比较快地得到满意的阈值结果。但是对于直方图双峰不明显、光照不均匀或图像目标和背景比例差异悬殊的图像,迭代法所选取的阈值不如最大类间方差阈值法(Otsu)算法。 (2)Otsu算法[8] 最大类间方差(Otsu)阈值法以其计算简单、稳定有效,一直广为应用。该算法是一种基于类间方差的阈值选取法,它是在最小二乘函数的基础上推导出来的。其基本思想是:取一个阈值k为分界,将像素按灰度值的大小分为小于k和大于等于k的像素两类,也就是目标和背景像素两类。从模式识别的角度来看,最佳阈值具有的分离性能应该能够产生最佳的目标类与背景类,此性能我们可以用类别方差来表征,因此我们引入类内方差σA、类间方差σB和总体方差σT。然后定义三个分离指标[8]: 2σAQ1=2 σB2σAQ2=2 σT2 2 2 σT2 Q3=2 σB(2.6) 任取其中一个分离指标,找出使其值最小的k值即为最佳阈值。其意义是使相同种类的类内方差最小,不同种类的类间方差最大。用P(i)表示图像各灰度级的频数,则选取阈值的计算步骤为: 步骤1:计算出图像中所有像素的最大灰度级kmax;步骤2:令初值k=0; 步骤3:利用灰度级k值把图像的所有像素分为两类,按下列公式求出σA和σB这两种方差; 22σA=W1σ12+W2σ22σB=W1W2(M1−M2)2 2 2 (2.7)(2.8) 在式(2.7)(2.8)中涉及到的各参数的计算公式分别如下: W1=∑P(i) i=0 kW2= kmax i=k+1kMAX∑P(i) (2.9) iP(i) M1=∑ i=0W1 (i−M1)P(i) σ=∑ W1i=0 2 1 kM2= iP(i)∑i=k+1W2 (i−M2)P(i)∑Wi=k+12 kmax (2.10) kσ= 22 (2.11) 步骤4:令k=k+1,重复地计算第3步骤,直到k值取到最大灰度级kmax; 步骤5:找出上述所有k值中令分离指标Q1最小的k值,该值即为所要求的最佳阈值。 得到最佳阈值后,将灰度值大于最佳阈值的像素规定为1,小于该阈值的像素规定为0,即完成了图像的二值化分割。全局阈值法简单稳定且运算速度较快,在背景均匀且目标像素比较一致时,找到整幅图像的一个全局阈值对图像进行二值分割可得到比较满意的结果。但是根据文本图像特点,全局阈值法不能满足应用要求。 8 2-2-1-2局部阈值(动态阈值) 由于光线照射不均匀等因素的影响,文本图像经常会出现阴影、背景灰度不一致以及图像各处目标与背景灰度值对比度不同等情况,此时如果采用全局阈值法对图像进行二值化,由于不能兼顾图像各处的情况必然会使二值化结果受到影响,给后续处理造成极大地困难。这就需要使用局部阈值,也称动态阈值来对图像进行分割,这种阈值的选取方法被称为变化阈值法或自适应阈值法。这类方法用与像素位置相关的一组阈值来对图像各局域部分分别进行分割处理。 局部阈值法是把整幅图像切分成几个小面积的子图像,再分别针对每个子图像应用全局阈值法求出最佳的分割阈值。典型的局部阈值方法有Bernsen算法和Niblack算法。 (1)Bernsen算法 Bernsen算法是一种经典的局部二值化方法[9]。考虑以(x,y)为中心的(2w+1)×(2w+1)窗口模板,f(x,y)表示(x,y)处的灰度值,则Bernsen算法可以描述为: (1)计算各点阈值 ⎡⎤ TB(x,y)=0.5×⎢maxf(x+i,y+j)+minf(x+i,y+j)⎥ −w≤i≤w−w≤i≤w⎢⎥−w≤j≤w⎣−w≤j≤w⎦ (2)逐点二值化 (2.12) ⎧0,b(x,y)=⎨ ⎩1,f(x,y) 由上可以看出,Bernsen算法的阈值是以局部窗口内最大值和最小值的平均值作为被考察点的阈值,它是由被考察点的邻域内的所有像素点的灰度值共同决定的,该算法不需要预先设定初始的预定阈值,所以比较具有实际的应用价值。但是经实验发现,将Bernsen算法运用在文本图像二值化的实际应用中存在一些缺点: 1、实现速度慢。Bernsen算法要寻找每一小块局部图像的最大值和最小值,所以整体速度较慢。如果做一次比较计算要耗费一个单元时间,那么处理M* N大小的图像耗费的时间就由 (M* N* (2W+ 1)* (2W+ 1))决定,当局部图像的大小区域增加时,时间耗费的影响与窗口尺寸的平 方成正比关系。 2、有伪影现象。由于Bernsen算法用图像的分割局部窗口内最小值和最大值来确定被讨论点的阈值,当被讨论点的窗口内没有目标时,个别噪声点就会引起阈值的较大得变化。另外,背景层灰度的不均匀也可能会对局部阈值的选取产生我们所不希望的影响,这将使一部分比较暗的背景区被误识为目标像素,在背景区域出现伪笔画,即形成伪影现象,给后续工作造成困难。 3、出现笔画断裂现象。当Bernsen算法所考察像素点的窗口内的点都是目标像素点时,局部阈值就会被拉升,结果使得部分目标点被误识为背景像素,导致信息丢失,形成文本图像的笔画断裂现象。 (2)Niblack算法 此方法的基本思想是依据局部标准差(LocalStandardDeviation)和局部平均值(LocalMean)在图像中不断变动阈值。像素点(x,y)处的阈值T这样来计算: T(x,y)=m(x,y)+k⋅s(x,y) (2.14) 其中,m(x,y)和s(x,y)分别为(x,y)的局部邻域的样本平均值和标准均方差。在选取时应当注意邻域要足够小,这样才能保存图像的细节,但同时也要足够大从而能够抑制噪声。在处理文本图像时,我们一般选择15×15大小的邻域,这样就能满足要求。另外,调整参数k的值是用来决定多大的字符目标边界能够被确定为给定目标的一部分。本文经试验证明取k=−0.02能够给出分离的很好的字符目标像素,达到应用要求。 9 文本图像的几何畸变校正技术研究 Niblack算法对于不均匀光照的文本图像具有很好的分割效果。但是其缺点在于耗费时间比较长。另外,对于输入图像边缘宽为7的带状方框,由于Niblack算法需要考察图像中每一个像素点的 15×15邻域内的所有像素值,而此类情况下由于没有足够大小的邻域供分析,二值化处理会使其存在 边缘效应,会导致其二值化分割不准确。 下面举一个应用的例子来说明局部阈值与全局阈值在作用效果上的差别。例如,一幅光照不均的原始文本图像如图2.2.1所示,其左边亮度高于右边的亮度。 图2.2.1原始图像图2.2.2阈值低的全局阈值分割 图2.2.3阈值高的全局阈值分割图2.2.4按亮暗区进行局部阈值分割 图2.2局部阈值与全局阈值分割效果的比较 Fig.2.2ComparisonoftheLocalthresholdandGlobalthresholdsegmentation 如果采用全局阈值对其进行二值化,如图2.2.2和图2.2.3所示,选择的阈值低,则对左边亮区分割效果较好,而暗区出现模糊;选择的阈值高,则对右边暗区分割效果较好,而左边亮区出现了部分的信息缺失。由此看出,对这类背景不均的图像采用全局阈值进行二值化无法到达理想效果。若采用局部阈值,则可以在亮区和暗区分别选择不同的阈值进行分割,使整体效果较为理想,如图2.2.4所示。 动态阈值法算法的抗噪声能力较强,对那些用全局阈值方法不易分割的图像能够起到比较好的作用,但是其空间复杂性和时间复杂性都较大。所以单独的动态阈值法也不适用本课题要求。2-2-2本文采用的二值化方法 局部阈值和全局阈值方法各有利弊,全局阈值法简单稳定且运算速度较快,在目标像素值与背景灰度相较差距较大时,找到整幅图像的一个全局阈值对图像进行二值分割可得到比较满意的效果。但是全局阈值法很容易造成文本图像中字符笔画的丢失;局部阈值法能够补足全局阈值的这个缺点,但耗时较长,且有可能造成伪影、图线断裂等现象。 文本图像不同于其它图像,它具有自己的特点:(1)目标文字像素与背景像素灰度值的比率比较小;(2)各文本图像的文字大小、文本密度互不相同,甚至相差很多;(3)目标文字自身像素灰度值或背景自身像素灰度值不一致。这些特点使文本图像的灰度直方图有这样的特点:一个峰值很小,另一个非常大,甚至仅有单个峰值或者两个峰值之间的差很大,双峰间的谷宽广平坦。此时,单纯通过全局阈值法进行二值分割很难得到好的效果,另一方面,单纯使用局部阈值方法复杂度较高又很难达到实用性的要求,所以本文采用全局阈值与局部阈值相结合的方法实现二值化操作,不但时间开销较少,而且能较好保持使用局部阈值法进行二值分割保留图像细节的优点。 全局阈值法中Otsu算法计算简单、定位阈值准确适用性较强;局部阈值法中Niblack算法则对于非均匀光线照射的文本图像具有很好的分割效果,只是时间开销较大[10]。所以本文采用文献[10]中提出的算法,把这两种典型方法结合起来,具体算法的基本描述如下: 1)首先使用Otsu算法对图像进行运算,得到全局阈值Threshold。 2)然后扫描整幅文本图像,如果被考察像素点即第i行第j列的像素点的灰度值大于Threshold,则令其灰度值f(i,j)=1;否则对这个像素点施以Niblack局部阈值二值化。 由于这种算法对背景中大部分的像素点直接用Otsu法得到的阈值将其分割为背景层,而只对前景部分采用了局部阈值分割算法,所用时间大大减少。经验证,速度得到了有效的提高。 10 图2.3原始图像图2.4二值图像 Fig.2.3TheoriginalimageFig.2.4Thebinaryimageoffig.2.3 此外,为方便起见,图像在二值化后,根据计算机对颜色存储的习惯,把其二值图像作反色处理,使其更方便人们在程序调试时的操作。例如,对文本图像进行二值化处理的结果如图2.4所示,其中图2.3为原始灰度文本图像。图2.5为图像二值化后作反色处理。 图2.5经过反色处理的二值图像 Fig.2.5Thebinaryimageafteranti-colorprocessing §2-3本章小结 本章主要介绍了文本图像预处理的相关技术,包括文本图像的平滑去噪处理和文本图像二值化的方法。在对现有图像预处理经典算法进行研究分析的基础上,根据文本图像自身的特点,重点讨论了本文所采用的平滑中值滤波和形态学滤波相结合的平滑去噪方法,以及全局阈值与局部阈值相结合的二值化处理方法。下一章将对经过预处理的二值文本图像进行畸变类型的检测与分类。 11 文本图像的几何畸变校正技术研究 第三章文本图像几何畸变的自动检测与分类 由于人为原因以及外围环境原因,文本图像在获取过程中容易产生各种几何畸变。根据产生原因,图像几何畸变大致可分为线性几何畸变和非线性几何畸变。对于文本图像,线性畸变是指倾斜变形,而非线性畸变通常包括透视变形和扭曲变形。这些几何畸变严重影响了文字识别技术的应用和发展。目前,已有很多几何畸变校正的方法应用于几何畸变文本图像。例如,文献[11]提出的针对透视变形的文本图像校正方法,首先提取文本四边形的边缘轮廓,将四边形的四条边缘直线的方程解析出来,然后建立成像模型,求得纵横比,进而实现图像的矫正;Zhang等[12]针对弯曲变形的文本图像提出了一种方法,即通过修正的盒柄算法提取单词的中心位置以及单词扭曲的角度;利用Hough变换作用于文本行将其生成一条直线;然后将单词的中心投影至该直线,之后通过对单词的旋转完成校正工作;对于倾斜变形文本图像的校正,更是已经有很多经典算法,如投影法、近邻(nearest-neighbor)法、交叉相关性方法和Hough变换法等[13]。 但是以上这些方法都是针对某一种或两种几何变形有效,而没有绝对通用的算法,需要对不同变形类型的图像采取不同的有效校正算法。随着文档电子化的应用越来越广泛,版面分析和OCR等文本识别相关技术的研究逐步趋于向批量化处理和实时处理的能力发展。因此,为了实现文本图像几何畸变校正的批量化处理和实时处理,在对文本图像进行畸变校正前实现文本图像几何畸变类型的自动辨识是非常必要的。因此,本文提出了一种文本图像几何畸变类型的自动检测与分类算法。 §3-1文本图像几何畸变的类型 在文本图像的获取过程中,积厚文档扫描或手持数码设备拍摄时,由于拍摄文档本身的倾斜、弯曲或者人为因素的影响,所拍摄的文本图像产生几何畸变是很常见又很难避免的问题。特别是近焦距拍摄文档资料时,变形更为严重,致使普通的文字识别系统根本无法对该类文本图像进行正常识别。为了解决这个问题,必须对各种变形的文本图像进行必要的几何校正。首先,要对各文本图像的畸变类型进行区分,然后针对该类型的畸变图像采用相应的方法进行几何校正。 3.1.1倾斜变形文本图像图3.1.3扭曲变形文本图像 12 图3.1.2透视变形文本图像图3.1 几何畸变文本图像 Fig.3.1Thedocumentimageswithgeometricdistortion 根据产生的原因和畸变图像文字行间的特点,文本图像几何畸变可分为三种变形,即:倾斜变形、透视变形、扭曲变形。当数码相机的像平面与被拍摄文本的物平面平行时,由于被拍摄的文本放置不正与镜头有一定角度则会产生倾斜变形。如图3.1.1中文本图像所示,在倾斜变形文本图像中,文字行曲线近似呈直线并且相邻文字行仍保持着平行关系。当数码相机的像平面与被拍摄文本物平面不平行时,则会产生透视变形。对于透视变形的文本图像,文字行曲线仍然近似呈直线,但相邻文字行并不保持平行关系,如图3.1.2中所示。在拍摄积厚文本时,则会产生扭曲变形。对于扭曲变形图像,文字行曲线既不保持直线特性、相邻文字行也不保持平行状态,如图3.1.3中文本图像所示。 §3-2文本图像几何畸变的自动检测与分类方法的研究与实现 为实现文本图像几何畸变的自动检测与分类,本文提出的文本行曲线特征提取的方法如图3.2的流程图所示: 在二值图像上求出白游程图去除不能代表文本行特征的游程用垂直线穿越游程图,获得一系列游程区段利用连通域标记,获得游程区段列表分析游程区段,选出曲线拟合的采样点集由采样点进行曲线拟合图3.2文本图像几何畸变类型自动分类流程图 13 文本图像的几何畸变校正技术研究 Fig.3.2Theflowdiagramofthegeometricdistortiontypesofdocumentimagesautomaticclassification如流程图中所示,该方法包括以下步骤: (1)在二值图像上得到体现文本行特征的白游程; (2)根据每个白游程特征与所有游程总体特征的差距分析,去掉不能有效代表文本行曲线特征的游程; (3)用等间隔的垂直线与每一条白游程相交,获得一系列穿越交线,简称穿越线;(4)将穿越线分配到不同的小区段中,利用连通域标记,获得区段列表;(5)从每个区段中挑选出能反映该区段几何畸变图像块的采样点; (6)根据每个白游程的所有有效采样点对该游程所代表的文本行进行曲线拟合。后续各小节将分别重点研究以上各步骤。3-2-1二值文本图像的形态学滤波 数学形态学最常见的基本运算有腐蚀、膨胀、开启运算、闭合运算、击中与击不中变换、细化以及粗化等,其中腐蚀和膨胀是数学形态学运算的基础。运用数学形态学单个的基本运算或将其合理结合起来使用就可以进行图像形状或结构的分析以及处理,包括边界检测、特征提取、图像分割、图像滤波等方面的工作。例如形态学中的开运算和闭运算可以减少图像中的随机视觉噪声。在二值文本图像中,如果图像在获取或传输过程中产生椒盐状的噪声,可以选取一个直径稍大于噪声点的圆形的结构元素对图像进行开运算,这样图像背景层的噪声就会被消除,但是如果同样的结构元素对图像进行闭运算,则图像前景层的噪声将被消除。根据开运算和闭运算的性质特点,将开启和闭合结合起来可以构成形态学噪声滤除器。下面首先讨论几种数学形态学的基本运算及其在文本图像处理中的简单应用。3-2-1-1形态学基本运算 在进行滤波处理之前我们首先看一下几种数学形态学的基本运算的定义[14]。1腐蚀 一B表示,并定义为:对Z中的集合A和B,使用B对A进行腐蚀,用A○ AΘB={z(B)z⊆A} (3.1) 一B由将B平移z但仍包含式中,z为在Z中结构元素B平移的像素点。由定义式可以看出,A○ 一B则是由在平移模板的过程中,所有在A内的所有像素点z组成。如果将B看作是模板,那么,A○ 可以填入A内部的模板B的原点组成的[15]。 腐蚀运算对图像起到收缩的作用,如图3.3中腐蚀运算的简单例子所示。图中结构元素B为一个圆形,圆形结构元素B在图像A的内部移动,将圆形B的所有经历的原点位置标记出来,就得到了腐蚀 一B。后的图像A○ 图3.3腐蚀运算 Fig.3.3Theerosionoperation 14 2膨胀 膨胀是腐蚀运算的对偶运算,可以通过补集的腐蚀来定义。使用结构元素B膨胀图像A可表示为+B,其定义为:A○ A⊕B=ACΘ(−B) [] c(3.2) 其中,Ac表示A的补集。如图3.4所示。(右图中虚线是为了表示膨胀运算与原集合的比较,实际中无此虚线) 图3.4膨胀运算 Fig.3.4Thedilationoperation 膨胀最简单的应用之一是将裂缝桥接起来[16]。图3.3显示了一个简单的例子。图3.5.2为一幅文本图像,其中字符“ea”有断裂现象。图3.5.1是一个能够修复这些间断的简单结构元素。图3.5.3显示了用这个结构元素对原文本图像进行膨胀,字符“ea”中的间断被连接了起来。 图3.5.1结构元素 图3.5.2原始图像图3.5.3膨胀图像 图3.5基于膨胀算法的断裂桥接 15 文本图像的几何畸变校正技术研究 Fig.3.5Crackbridgingbasedondilationalgorithm 3开运算(Opening) 以腐蚀和膨胀两个基本运算为基础,可以构造出两种基本的二次运算——开启运算(开运算)和闭合运算(闭运算)。虽然以腐蚀和膨胀为基础,但是从结构元素填充的角度看,开启和闭合运算本身就具有直观的几何意义。下面首先来探讨开运算的基本原理和在图像处理中的几何意义。 对于图像A与图像B,用图像B对图像A作开启运算,用符号AoB表示,其定义为: AoB=[AΘB]⊕B(3.3) 由上式可以看出,标记每一个可填入图像A内部的结构元素B的原点位置,求得结构元素B平移到所有标记位置时的元素的并,就得到了图像B对图像A作开启运算。图3.6表示了结构元素为一个圆形时的开启运算的过程和结果。用圆形结构元素B对一个矩形图像A作开启运算,结果会使矩形图像的内角变圆。这种圆化的结果,可以通过将圆形在矩形的内部滚动,并计算结构元素平移到所有标记位置时的原点的并集得到。但如果结构元素是一个小正方形,那么,开启运算就不会产生圆角,所得图像与原图形形状相同。 图3.6开启运算Fig.3.6TheOpeningoperation 4闭运算(Closing) 闭合运算是开启运算的对偶运算,设A是原始图像,B是结构元素图像,集合A被结构元素B作闭合运算表示为A•B其定义为: A•B=[A⊕(−B)]Θ(−B) 闭合运算即先作膨胀然后再作腐蚀。闭合运算可以用图3.7表示: (3.4) 图3.7闭合运算 Fig.3.7TheClosingoperation 与膨胀和腐蚀一样,开运算和闭运算是关于集合补和反转的对偶。也就是它们满足关系: (A•B)=(AoB) cc∧ (3.5) 3-2-1-2对二值文本图像进行形态学滤波 根据数学形态学基本算法的原理以及几何意义可见:膨胀使图像扩大;腐蚀使图像收缩;开启运算一般能平滑图像的轮廓,削弱狭窄的部分,去掉细的突出;闭合运算与开启运算相反,它一般熔合窄的缺口和细长的弯口,去掉小洞,填补轮廓上的缝隙。将开启和闭合结合起来可构成形态学噪声滤除器。 16 下面解释形态学滤波的工作原理:开运算有下列性质: 1AoB是集合A的子集(子图)○; 2如果C是D的子集,则CoB是DoB的子集;○ 3(AoB)oB=AoB。○ 同样,闭运算有下列性质: 1A是集合A•B的子集(子图)○; 2○如果C是D的子集,则C•B是D•B的子集;3(A•B)•B=A•B。○ 这些性质有助于对用开运算和闭运算构成的形态滤波器时所得结果的理解。例如,用开运算构造一个滤波器。我们参考上面的性质: 1结果是输入的子集;○2单调性会被保持;3多次同样的开运算对结果没有影响。同样的解释适用○○于闭运算。 考虑图3.8中简单的二值图像A,它包含一个被噪声影响的矩形目标。这里噪声用暗元素(阴影)在亮的背景表示,而光使暗目标为空的。其中,集合A包含目标和背景噪声,而目标中的噪声构成了背景显示的内部边界。目的是去除噪声及其对目标的影响,并对目标的影响越小越好。形态“滤波器”(AoB)•B可以用来达到此目的。AoB显示了用一个比所有噪声成分都大的圆盘形结构元素对A进行开运算的结果。这步运算考虑了背景噪声但对内部边界没有影响。 图3.8形态学滤波Fig.3.8Morphologicalfiltering 在这个理想的例子中,所有的背景噪声成分的物理大小均小于结构元素,背景噪声在开运算的腐蚀过程中被消除(腐蚀要求结构元素完全包含于被腐蚀的集合内)。而目标内的噪声成分的大小却变大 一B)了(A○,这在意料之中,原因是目标中的空白事实上是内部边界,在腐蚀中会变大。内部的边界在闭运算后的膨胀运算中被消除了,最后(AoB)•B和AoB示出了形态闭运算的结果。 前已说过,数学形态学的基本运算中无论是腐蚀、膨胀还是开、闭运算都可以在不同范围除去噪声。一种有效的滤波方法是利用开启和闭合结合起来构成的形态滤波器。由于形态学中的开、闭运算具有消除图像视觉噪声和平滑图像的功能,因此使用形态学开运算和闭运算建立的形态滤波器逐渐发展起来。形态滤波器是用一个结构元素B对图像先后结合地使用开运算和闭运算操作以达到滤波的目的,形态学中的开启运算与频域的低通滤波相似,但又不同于低通滤波,在大小结构都有较高的空间频域时开启运算只允许大结构通过而能去除小的结构。开启运算可以消除图像中的孤立点或尖峰等过亮的点,而闭合运算可以将比背景亮度暗且尺寸比结构元素小的图像块儿除掉[17]。 结合形态滤波与中值滤波处理后的二值文本图像如图3.9所示,滤波效果良好,且经实验证明为后续处理工作打下了良好的基础。 17 文本图像的几何畸变校正技术研究 图3.9结合形态滤波与中值滤波后的二值图像 Fig.3.9Thebinaryimageaftermorphologicalfilteringandmedianfiltering 3-2-2基于数学形态学的游程涂白(黑)处理 图像的游程图是用来研究图像的几何结构的,这种几何结构可以表示被分析对象的宏观性质,也可以表示被分析对象的微观性质,游程图方法是用具有一定形态的结构元素去量度和提取图像中的对应形状以达到对图像分析和识别的目的[18],本文正是应用游程图的宏观性质,首先对文本行的涂白(黑)处理,然后再分析游程图从而提取文本行的曲线特征。3-2-2-1用于游程处理的数学形态学基本算法 文本图像经过二值化分割和滤波处理后,要对所得二值文本图像进行游程处理,获得文本图像文本行的白游程图。游程处理需要使用数学形态学方法,下面首先介绍几种要用到的基本形态学算法。1边缘提取算法 集合A的边界记为β(A),可以通过下述算法提取边缘:设B是一个合适的的结构元素,首先,由 B对A腐蚀,然后求集合A和腐蚀结果的差。如下式所示 β(A)=A−(AΘB) (3.6) 图3.8解释了边缘提取的过程。它表示了一个简单的二值图像,一个结构元素和通过用式(3.6)得出的结果。3.10.2中的结构元素是比较常用的一种,但绝对不是唯一的,结构元素的形式多种多样,在应用时根据要求选取。如果采用一个5×5全“1”的结构元素,可以得到2~3个像素宽的边缘。需要特别提出的是,当结构元素B的原点处在集合A的边界时,结构元素的一部分位于集合A之外。这种条件下,通常的处理是约定集合A边界外的值为“0”。 图3.10.1二值图像图3.10.2结构元素 图3.10.3A一○B 图3.10.4β(A) 图3.10边缘提取算法示意图 Fig.3.10Schematicdiagramofedgedetectionalgorithm 18 2区域填充算法 本文采用形态学区域填充算法对阈值分割后的图像进行区域填充。下面是一个简单二值图像的例子,解释了区域填充简单算法。在图3.11中,A表示一个包含子集的集合,其子集元素为区域的8连通边界点。从边界一点开始,最终目标是用“1”元素填充整个区域。假定所有的非边界元素均标为“0”,把一个值“1”赋给边界点,P开始这个过程[19]。下述过程将把这个区域用“1”来填充: Xk=(Xk−1⊕B)∩Ack=1,2,3L (3.7) 式(3.7)中,X0=P,B为对称结构元素,如图3.11.3所示。当k迭代到Xk=Xk−1时,算法终止。集合Xk和A的并集包括填充的集合和边界。 如果式(3.7)的膨胀过程一直进行,它将填满整个区域。然而每一步与Ac的交集把结果限制在我们感兴趣的区域内。图3.11剩下的部分解释了式(3.7)的进一步技巧。尽管这个例子只有一个子集,只要每个边界内给一个点,这个概念可清楚地用在任何有限个这样的子集中。 图3.11.1二值图像 图3.11.2Ac3.11.3结构元素 3.11.4X03.11.5X1 3.11.6X13.11.7X63.11.8X73.11.9X7∪A图3.11区域填充算法Fig.3.11Regionfillingalgorithm 3-2-2-2文本图像的游程涂白(黑)处理 下面介绍基于以上述数学形态学基本算法的文本二值图像游程涂白(黑)处理: 对二值文本图像而言,游程图是指分别在X方向和Y方向,将图像中比较短的黑线段填充成白线段,黑线段的长短由一定得阈值来决定。被如此处理后所得到的图像称为白游程图,简称游程图[20]。实际上,可以直观地将游程图处理理解为一种“涂白(黑)”处理,这种游程图可以将细节掩盖,从而反映出图像中各部分的主要几何形状特征。 先求出滤波后的二值文本图像(如图3.9所示)所对应的白游程图(如图3.12所示),可以看到,在游程图上,文字左右的间隙都被涂白,而两行被分割开来。 在二值文本图像的涂白处理过程中,既需要保持行间距离,又要体现文本行形状特征,亦即X方向应该适当多涂白(连接),而Y方向则尽量断开,这一目的可以通过在X方向和Y方向取相差较大的涂白阈值来实现,例如可以取Y方向的涂白阈值为X方向的涂白阈值的6-10倍,如此获得的游程图就可以达到既抹掉了文本图像中文字细节的目的,又满足了最大限度地保留各文字行区域的轮廓特征的要求,例图涂白后如图3.12所示,可以在游程图中清晰地看出,文字的细节不再可见,但文本行的轮廓清晰地被表达出来。 19 文本图像的几何畸变校正技术研究 图3.12图3.9的游程图 Fig.3.12Therun-lengthdiagramoffig.3.9 3-2-3对游程图白游程连通域的标记 经过涂白处理得到文本图像的白游程图,为了便于后续对每条文本行白游程的操作处理,需要对文本行白游程区段进行连通域的标记。这就要用到数学形态学的基本算法——提取和标注连接分量。3-2-3-1提取和标注连接分量 在二值图像中提取和标记连通分量是许多自动图像分析应用中的核心任务。对于任意的前景像素点m,与其相连的所有前景像素的集合称为包含m的连接分量。连通分量这一术语是根据路径来定义的,而路径的定义取决于邻接。也就是说连接分量的性质取决于所选的邻接方式,最常见的邻接方式为4邻接和8邻接。图3.13说明了邻接方式对图像中连接分量的提取及连接分量的数量的影响。图3.13.1显示了具有四个4邻接分量的一幅小二值图像,而图3.13.2显示了使用8邻接可以将连接分量的个数减少为两个。 图3.13.14邻接 图3.13连接分量示意图 图3.13.28邻接 Fig.3.13Schematicdiagramofconnectedcomponent 为使用方便,需要对连通分量进行标记。连通分量的标记是指将每个不同连接分量中的像素分配给一个唯一的整数,该整数的范围是从1到连接分量的总数。令Y表示一个包含于集合A中的连通分量,并假设Y中的一个点m是已知的。而后用下列的迭代表达式生成Y的所有元素: Xk=(Xk−1⊕B)IA20 k=1,2,3L (3.8) 这里选取初始值X0=m,B是一个适当的结构元素。如果Xk=Xk−1,则算法收敛,我们令Y=Xk。如图3.11是一个简单的标记示意图,图3.14.1和图3.14.2分别显示了与图3.13对应的使用4连接和8连接得到的标记矩阵。标记为1的像素属于第一个连接分量;标记为2的像素属于第二个连接分量;以此类推。 图3.14.14邻接分量标记矩阵图3.14.28邻接分量标记矩阵 图3.14连接分量标记矩阵 Fig.3.14Taggingmatrixofconnectedcomponent 需要重点指出的是,进行形态学处理时需要特别注意形态学算子的选取,这是形态学处理中最关键的一点,它直接决定了最后结果的好坏,尤其在本文的游程处理中,形态学算子的选取应该根据文本图像特征为基准,能在最大程度上体现文本行信息且减少干扰游程为最优。 3-2-3-2白游程连通域的标记 基于以上的二值图像提取和标记连通分量的基本算法,可以对上个步骤产生的文本行白游程区段进行连通域的标记,以便后续的操作处理。 本文所使用的连通算法采用8邻接方式的从上到下、从左到右的顺序进行扫描。每一个目标像素点只能根据已经判断连通性的像素点来确定自己的连通性,所以对于普通的一个像素点只需扫描自己和周围已确定连通性的像素点就可确定自己的连通性,即扫描左、左上、右上、上4个像素的灰度值就可以了[21]。 随后分析等价标记表将在等价表中具有等价关系却不同连通标记值的连通区域合并成一个连通域,即将等价对标记表中对应连通域的所有像素点集合和它们的等价对标记表一起合并。 完成对白游程连通域的标记之后,对游程图的各种操作便容易方便了很多。3-2-4白游程有效区段的筛选 通过观察可以看出,在游程图中存在一些不能体现文本行曲线特征的白游程,如图3.12中左上角、左下角和右下角的三个白游程。这是由于经过去噪处理后的二值图像仍然可能存在噪声,而且文本图像中也存在一些很短的文本行并不能体现整幅文本图像的变形特征,为了避免此类游程的干扰,我们可以根据游程的高度和宽度剔除这些干扰游程。基于连通域标记,可以分别对各个白游程操作,得到其特征值,分析特征值信息后,可以去除不必要的连通域。通过实验得出经验值,去掉符合以下任意一个条件的游程即可除去干扰游程: 游程高度<1/3平均高度;游程高度>3倍平均高度;游程长度<1/2平均长度。 筛选有效游程段之后如图3.15所示。 按照此方法剔除干扰白游程,图像、花边、表格等的不规则的区域由于几何特性与文字等相差大,一般会被去掉。因此增强了该文本图像几何畸变的自动检测与分类算法的鲁棒性。 21 文本图像的几何畸变校正技术研究 图3.15剔除干扰白游程Fig.3.15Therun-lengthwithoutinterferer 3-2-5文本行特征点的提取 得到能够有效代表文本行曲线特征的游程区段之后,为了进行文本行曲线拟合,需要提取每一行的文本行特征点,具体步骤如下: 步骤1:在游程图上,每隔N个水平像素的位置进行垂直方向的穿越,获得一系列的垂直穿越线在此步骤中所取的N值应兼顾效率与精度,穿越线可以视为对游程图的抽样,因此N值越大所获的穿越线越少,分析的开销越小,效率越高。但N值过大意味着抽样的减少,会影响精确性,试验证明一般可设在20左右。为了明确的表示出来,图3.16中穿越线用黑线显示: 步骤2:利用连通域标记,获得区段列表,提取每个区段的质点每个白游程都被穿越线分割成等宽度的游程小区段,同样用前面提到的连通域标记方法得到区段列表,然后提取每个小区段的质心,作为曲线拟合的备选点。如图3.17中所示。 图3.16游程上的穿越线 Fig.3.16Run-lengthandthetraversinglinesonit 步骤3:分析游程区段质点,选出曲线拟合的采样点集 在一个白游程中的区段并不都适于用来生成拟合曲线用的采样点,采样点应该是能反映该白游程的弯曲走向趋势。通过质点位置是否连续,可选出每个游程上的采样点。在每个文本行白游程中按是否能描述该游程弯曲趋势的要求,挑选所需的采样点集,挑选的原则是:游程中相临区段的质点连续,跳变 22 小的点集合,即按区段质点是否光滑变化的原则挑选采样点。 具体来说,分析每段中的质点,挑出其Y方向点的位置光滑变化的区段,被挑出的质点所代表的区段作为该白游程中规则区域,其质点作为该游程进行曲线拟合时使用的采样点。另外,一般文本行区段两个端点附近的采样点往往会起到干扰作用,所以选取时舍弃这些点。图3.17分析游程图及其穿越线后所得的区段、区段中的采样点 Fig.3.17Thesectionsandthesamplingpointsinthemdependedonanalysisoftherun-lengthdiagram3-2-6文本行曲线拟合及特征参数的提取 有了上述用于文字行曲线拟合的采样集点就可以对各条白游程进行曲线拟合以得到相应的文字行曲线的函数表达式。本文采用三次多项式来拟合文字行曲线。第i行文字行曲线的三次多项式表达式如下式: Fi(x)=ai3x3+ai2x2+ai1x+ai0 (3.9) 式中ai3、ai2、ai1、ai0分别为第i条文字行曲线的各次方系数,根据多项式系数与曲线特征对应关系,可以根据拟合曲线的多项式系数判定曲线是否为直线以及直线的倾斜度,进而判定文字行的走向特征。3-2-7文本图像几何变形的检测与分类的实现 得到代表文字行走向的拟合曲线函数以及曲线函数的多项式系数之后,我们可以根据下述公式确定文本图像的几何畸变类型: ⎧ ⎪扭曲变形:⎪⎪ ⎪未变形:⎪⎨ ⎪倾斜变形:⎪⎪⎪ ⎪透视变形:⎩ ∑f(ai=1nni3 )≥n/3 ) (3.10) n∑f(ai=1ni3 ) i3 ) i=1 23 文本图像的几何畸变校正技术研究 式中, ⎧1,f(x)=⎨ ⎩0, x≥Cx g(x)=⎨0 ⎩−1,x≤−tan3⎧1,−tan30≤x≤tan30 q(x)=⎨00 ⎩0,x≤−tan3,x≥tan3 (4.12) (4.13) 其中ai1、ai3分别为第i条文字行曲线的一次方系数和三次方系数,n为文字行曲线总数。C为阈值,用来区分直线与曲线,本文经试验证明C=1.5e−008即可满足要求。且实验证明,倾斜度在3o以上的倾斜引起字符明显变形,大部分OCR方法难以适应[22]。因此,上面公式中用函数g(x)和q(x)中使用倾斜率tan30作为阈值,若倾斜度在3o以下则为未发生形变的图像,不必进行几何校正。 §3-3实验结果与算法评析 本文方法在Matlab环境进行实验。实验图库为由三种几何畸变类型的文本图像及未发生几何畸变的文本图像各25幅建成的小规模样本库。对该样本库中文本图像的几何畸变类型的自动检测识别率由表3.1示出。 表3.1各类型几何畸变文本图像的平均准识率 Tab.3.1Theprecisionratioofeverytypeofgeometricdistortionwithdocumentimages 图像畸变类型未变形倾斜变形透视变形弯曲变形 样本数25252525 准识数25242425 准识率100%96%96%100% 误识率0%4%4%0% 从实验结果来看,该文本图像几何畸变类型的自动检测与分类的算法具有较高的检测与分类准识率,达到了96%以上,尤其是对弯曲变形的文本图像识别率很高,但要应用还需要增大样本数量。另外,通过对误识样本分析,其误识原因主要在于该类文本图像版面过于复杂,存在大量公式、表格和图像等,有效文本行过少,无法得到足够的文本行走向信息。因此,在以后的研究工作中,将考虑加入表格线、图像边框等可利用的信息来使该算法更具有普遍适用性。 §3-4本章小结 本章作为课题研究的重点内容,详细论述了本文所提出的一种以数学形态学与曲线拟合等技术为基础的文本图像几何畸变类型的自动检测和分类方法的实现步骤。然后根据该算法对文本图像样本库图像的检测与分类实验结果对该算法做了简要评析。 文本图像几何畸变类型的自动检测和分类方法是实现全自动文本图像几何畸变校正的关键,接下来将分别介绍倾斜变形、透视变形、扭曲变形文本图像的几何校正方法,用以实现文本图像几何畸变的自动校正系统。 24 第四章几何畸变文本图像的校正技术 检测出文本图像存在几何畸变并识别出其畸变类型后,就要根据畸变类型采用相应的几何校正方法对文本图像进行校正。本章将分别研究倾斜变形、透视变形和扭曲变形这三种典型变形文本图像的几何校正技术。 §4-1倾斜变形文本图像的校正 倾斜变形的文本图像中,文字行曲线近似直线并且相邻文字行仍保持着平行关系。根据这一特点,文本图像倾斜变形的几何校正方法一般分为两步:(1)检测出文本图像的倾斜角度。(2)采用对图像进行旋转的方法,对倾斜的文本图像进行校正。下面将这两步作为两小节内容详细研究。 4-1-1文本图像线性倾斜检测技术 要对倾斜变形图像的文字行进行校正,必须知道其倾斜角度,因此文本图像倾斜校正的核心在于如何检测出图像的倾斜角。现人们已经提出多种不同的图像倾斜检测校正的方法,常用的有以下4种:投影法[23]、近邻(nearest-neighbor)法、交叉相关性方法[24]和Hough变换法[25]。还有一些别的倾斜估计方法如:BOG(BlockAdjacencyGraph)算法[26]、基于子空间直线检测[27]、基于Fourier谱分析[28]、基于梯度分析[29]神经网络法等。Fourier变换的方法是利用页面倾角对应于使Fourier空间密度最大的方向角的特性,将文本图像的所有像素点进行Fourier变换,计算量非常大,目前很少采用。下面简要研究常用的4种倾斜检测算法原理以及本文采用的基于文本行直线拟合的文本倾斜检测算法。4-1-1-1投影法 投影法是目前最常用的应用于二值文本图像文本行的倾斜检测算法之一,其基本思想是将文本图像分别向不同的倾斜角度进行投影,得到每一个倾斜角度下的投影形状,将其定义成一个目标函数并进行计算,然后比较所有的角度下的目标函数,使目标函数最优的那个唯一的角度就是实际的倾斜角度[30]。令I(x,y)表示图像的二维像素点的值,图像大小为H×W,且 ⎧1, I(x,y)=⎨ ⎩0, (x,y)是黑像素点(x,y)是白像素点 (4.1) 这种投影的方法将图像由二维函数转换为一维函数,然后根据此一维函数进行文本行倾斜角度的分析,不存在倾斜变形的文本图像的投影图有如下特征:水平投影具有最大的振幅和频率,且波峰的间距均匀并等于字符的高度;波谷的间距均匀且等于行间距等[31]。 而图4.1是存在倾斜角的文本图像的投影示意图,图像I(x,y)在x,y轴上的投影分别为: 竖直投影 I(x)=∑I(x,y) y=oW−1 (0≤x 水平投影 I(y)=∑I(x,y) x=oH−1 (0≤y 这种投影图方法需要在一定的角度范围内,以一定间隔的分辨率,分别旋转倾斜变形的文本图像,获得相应旋转后图像的投影图进行分析,并一一记录其特征,当投影的方向与文字行的方向一致时,文 25 文本图像的几何畸变校正技术研究 字行对应于投影图上的峰值最大,这时行间空白对应投影的峰谷,在这里我们通过衡量均方差来分析这些投影图,根据前述理论,使投影图的均方差达到最大的旋转角度就是实际文本图像倾斜角度[32]。 图4.1倾斜10o角的文本图像投影示意图 Fig.4.1Theprojectedimagesofhorizontaldocumentwith10oangleofinclination 4-1-1-2交叉相关性法 交叉相关性算法是基于投影图方法的一个特例[4]。该算法的基本思想是:对于一幅灰度图像,可以将每一个像素点的灰度值看作是一个与该像素的坐标位置有关的函数:I(x,y),x和y的范围为 0≤x≤X−1,0≤y≤Y−1。 选取两条竖直平行扫描线(如图4.2所示):l1:(x=x0)和l2:(x=x0+d)。定义其垂直交叉相关函数R1为: R1(x0,s)=∑I(x0,y)∗I(x0+d,y+s) 其中,d为垂直线l1和l2之间的距离,s为向下平移变量。 (4.4) 如果文本图像存在倾斜变形,那么同一文本行上的点在两条平行扫描线上会发生平移,如图4.2所示。很显然,平移过程中,当竖直线l1相对于l2移动s正好为水平文字行在d上的垂直落差时,R1取得最大值。 图4.2R(s)的计算Fig.4.2ThecalculationofR(s) 26 只取l1和l2两条竖直扫描线进行计算并不能得到精确地文本图像倾斜角度,所以我们对所有距离为 d的直线按照下列公式进行累加计算: Y−dR(s)= y0=0 ∑R(y1 0 ,s) (4.5) 然后我们通过在预定的取值范围±S内,在整幅文本图像范围对不同的s计算上述的R(s),然后向竖直方向做投影,在投影图达到全局最大值时就对应于文本图像的实际倾斜角度。若其所对应的峰值在相关函数中,则文本图像的倾斜角度可以按式(4.6)求出,根据得到的Sp,计算该倾斜变形文本图像的倾斜角度为: α=arctan Spd(4.6) 交叉相关性算法虽然比较精确,但是应用到文本图像还存在着一些问题:例如,若文本图像中存在竖直文字或图像会影响计算的准确性;文本行重复出现会引起多个峰值问题,这会导致倾斜检测的失败;由于要对整幅图像做交叉相关性计算,所以要耗费大量的时间来计算相关矩阵。4-1-1-3近邻法 应用于文本图像倾斜角检测的近邻法通过检测连通区域,然后找出最邻近的连通区域,再通过连通区域的中心线计算出倾斜角度,由于到每个近邻连通区域可计算出多个倾斜角度,通常是根据大多数倾斜角度的方向确定实际的倾斜方向。 近邻法具有较高的估计精度,但对于具有较多相互邻近的组成部分时,会很费时。K—最近邻簇(KNN)[33]方法是一种改进的近邻法。该方法先找出所有连通区中心点的K个最近邻,计算每个近邻点的矢量方向并统计生成直方图,然后根据直方图的峰值位置与页面倾斜角的对应关系计算倾斜角度。其计算复杂度为O(N2),这里N为连通区个数[34]。4-1-1-4霍夫变换法 霍夫(Hough)变换[35]的基本思想是点线的对偶性,所有过一点(x,y)的直线都满足式(4.7)方程: y=ax+b(4.7) 图4.3.1图像空间 图4.3 图4.3.2参数空间 Hough变换原理[32] Fig.4.3TheprincipleofHough-transform 其中a为直线的斜率,b为直线的截距,一对参数(a,b)就能够唯一的决定一条直线。根据函数性 27 文本图像的几何畸变校正技术研究 质,式(4.7)也可以写成式(4.8)的形式: b=−xa+y(4.8) 如图4.3所示,图像变换前在图像空间,变换后在参数空间。式(4.7)表示参数空间中过点(a,b)的一条直线。图像空间与参数空间的对应关系为:图像空间中位于直线y=ax+b上的无穷多个点分别对应了参数空间中的无穷多条直线,这些直线都穿过了参数空间中的点(a,b)。 Hough变换一般包括三个基本步骤[34]: 步骤1:在参数空间建立一个二维的累加数组A(a, b),并设其初值为0;设估计的斜率与截距的取值范 围为[amin,amax]与[bmin,bmax]; 步骤2:对图像空间中的每个待处理的图像像素,将a遍取a轴上所有可能的值,同时根据式(4.8)计算出与其相对应的b的值,再根据a和b的值对数组A累加:A(a,b)=A(a,b)+1; 步骤3:累加完成后,在累加数组A中选出具有最大值的那个单元,它对应的参数所决定的直线就是我们在图像空间上要寻找的直线。 4-1-1-5基于文本行直线拟合的文本倾斜检测算法 在本文第三章表述的文本图像几何畸变类型的自动分类实现过程中,已经在对文本行曲线特征点集合的基础上,对文本行进行了曲线拟合并提取了曲线特征参数的提取。对于倾斜变形的文本图像来说,文本行曲线为直线,所以在前面直线拟合的基础上,其文本倾斜检测可以通过拟合曲线的斜率计算出倾斜角。然后再对文本图像进行旋转校正。 对于一条文本行条来说,假设它包含的特征点坐标为(xi,yi),i=1,2,L,N,并设文本行曲线的拟合方程为ϕ(x)=a0+a1x。 根据一元线性回归方程,a0和a1将满足: NNN⎧ N∑yixi−∑xi∑yi⎪ i=1i=1 ⎪a1=i=1NN2⎪2 Nx−(x)∑∑ii⎪⎪i=1i=1 ⎨NNNN2 ⎪yi∑xi−∑xi∑yixi∑⎪i=1i=1i=1i=1 NN⎪ao=2 ⎪N∑xi−(∑xi)2⎪i=1i=1⎩ (4.9) 则a1的值就代表了文本行的方向,即文档的倾斜方向,文本行的倾斜角θi=90o−tan−1a1,当 tan−1a1≥0o时,图像的倾斜是由于其顺时针旋转造成的;tan−1a1≤0o时,图像倾斜是由于逆时针旋转造成的。在具体计算时,可以对几个文本行条带同时进行拟合并求平均,而且还应该排除那些过短或块不均匀的文本行区段参与角度的计算。本文是选取具有长度较大的所有文本行区段进行拟合,然后求其平均值来计算整个文本倾斜的角度的。4-1-1-6各种倾斜角度检测算法性能的比较 根据前文对倾斜角度算法的讨论研究,在表(4.1)中对几种比较典型的算法及本文提出的算法的鲁棒性、精度、耗时以及所需存储空间等性能进行定性的分析比较。 本文提出的基于直线拟合的文本倾斜检测算法,基于系统前部分实现文本图像畸变类型自动检测与分类算法中的文本行曲线拟合所得参数,具有检测精度较高、运算复杂度低且对含有图表等复杂图像适应性较强等特点。 28 表4.1各种倾斜角度算法的性能比较 Table.4.1Thecomparisonbetweentheperformancesofthealgorithmsoftiltangledetection算法名称投影法基于Hough变换 算法 近邻法交叉相关性算法基于直线拟合算 法 主要思想 基于文本区域沿不同方向的特征投影值不同基于对黑色像素的坐标 进行变换 利用字符近邻连通域中 心线的连续性基于文本区域同一行像 素的相关性 通过拟合直线特征参数 计算文本行斜率 精度较低一般一般较高较高 对含图表图像适应程度 一般较低一般较强较强 耗时一般较长较长较长一般 所需存储空间一般较大一般较大较小 4-1-2文本图像线性倾斜的旋转校正 当检测到文本图像发生倾斜且测得其倾斜角度后,采取图像旋转的方法反向旋转倾斜文本图像,并采取适当的灰度插值方式例如双线性插值,用以恢复像素在旋转过程中的灰度丢失,便可实现对倾斜的文本图像进行校正,通常情况下,已知倾斜角度后的倾斜校正采取简单的旋转变换[36],其定义为 ⎡x'⎤⎛cos(θ)−sin(θ)⎞⎡x⎤ ⎟⎢'⎥=⎜⎜⎟⋅⎢y⎥sin(θ)cos(θ)y⎠⎣⎦⎣⎦⎝ (4.10) 设点p(x,y)经过旋转θ后坐标变成(x',y'),因为绕原点旋转,所以从原点到点p和p'的距离相等,在图中标记为r。如图4.4所示 图4.4旋转方程的推导Fig.4.4Derivationofspinequations 通过三角学得到x=r⋅cosφ,y=r⋅sinφ且 x'=r⋅cos(θ+φ)=x⋅cosθ−y⋅sinθy=r⋅sin(θ+φ)=x⋅sinθ+y⋅cosθ如果用齐次坐标来表示,则式(4.10)可以写成如式(4.12)所示的矩阵形式的表达式, ' (4.11) ⎡x'⎤⎛cos(θ)−sin(θ)0⎞⎡x⎤⎟⎢⎥⎢'⎥⎜ y=sin(θ)cos(θ)0⎟⎢y⎥⎢⎥⎜⎢1⎥⎜01⎟⎠⎢⎣1⎥⎦⎣⎦⎝0 (4.12) 29 文本图像的几何畸变校正技术研究 假设图像旋转前的中心坐标为(a,b),则在旋转时要将坐标系首先平移到点(a,b),旋转完成以后,再平移回新的坐标原点(c,d)。对图像进行旋转变换的矩阵表达式如式(4.13)所示: ⎡x'⎤⎛10c⎞⎛cos(θ)sin(θ)0⎞⎛10−a⎞⎡x⎤ ⎟⎜⎟⎜⎟⎢⎥⎢'⎥⎜ y=0−1d−sin(θ)cos(θ)00−1b⎟⎜⎟⎜⎟⎢y⎥⎢⎥⎜ ⎟⎜⎜⎢1⎥⎜01⎟1⎟⎠⎝00⎠⎢⎣1⎥⎦⎣⎦⎝001⎠⎝0 其逆变换的矩阵表达式如式(4.14)所示: ' ⎡x⎤⎛10a⎞⎛cos(θ)−sin(θ)0⎞⎛10−c⎞⎡x⎤⎢y⎥=⎜0−1b⎟⎜sin(θ)cos(θ)0⎟⎜0−1d⎟⎢y'⎥ ⎟⎜⎟⎜⎟⎢⎥⎢⎥⎜ ⎜⎟⎜⎜⎥⎢01⎟1⎟⎣1⎥⎦⎝001⎠⎝0⎠⎝00⎠⎢⎣1⎦ (4.13) (4.14) 简单旋转变换虽然很直观,但是这种方法的计算量较大,当文本页面的大小为W×H时,旋转变换 需要4WH次乘法运算和2WH次加法运算,本文采用基于偏移值的方法,提前生成像素点的水平、竖直偏移值,快速地对倾斜页面进行校正[31]:当倾斜角为θ时,对应于第j列的像素点的竖直方向偏移值为∆yj=j/(W/(Yoff+1)),其中Yoff=[W×tanθ];而第i行的像素点的水平方向偏移值为∆xi=i/(W/(Xoff+1)),其中Xoff=[H×tanθ]。该方法只需要2WH次加法运算,可以显著减少校正时间。 旋转校正的过程中需要采取适当的灰度插值方式进行插值(例如双线性插值),用以恢复像素在旋转过程中的灰度丢失,灰度插值的方法有很多,常用的灰度插值有零阶插值、双线性内插、二次卷积插值等,其中双线性插值的使用最为广泛,考虑到实时性和对图像质量的要求,文本图像一般采用双线性插值法进行插值,它是利用(u,v)坐标点周围4个最近坐标点的像素值在两个方向上做线性插值,这样就能够得到一个像素值较为连贯的恢复的灰度文本图像[3]。我们取du=u−[u],dv=v−[v],如图4.5所示: 图4.5双线性插值示意图 Fig.4.5Schematicdiagramofbilinearinterpolation 所取像素值可以定义为: (1−du)(1−dv)f([u],[v])+(1−du)dvf([u],[v]+1)+du(1−dv)f([u]+1,[v])+dudvf([u]+1,[v]+1)(4.15)图像经过一定角度的旋转后,原文本区域很可能会超出原来的显示区域,对此一般有两种处理方式:一是对旋转后的图像进行裁剪,即截去超出显示区域的部分图像;另外一种方法是通过扩大显示区域来显示出完整图像,虽然相比较而言第一种处理方法操作比较简便,但是会造成显示信息的部分丢失,因此我们采用后面的方式对旋转后的图像进行处理,如图4.7所示是对图4.6所示经过预处理的倾斜变形二值图像进行倾斜校正后,通过扩大显示区域来显示出完整的校正图像。其中虚线部分是为了对比校正前后的显示区域而添加的。 30 图4.6经过预处理的倾斜变形二值图像Fig.4.6Theinclinationdeformationbinary imageafterpretreatment 图4.7通过扩大区域显示校正后完整图像Fig.4.7Toshowthecompleteimageafter correctionbyexpandingthearea 4-1-3算法评析 本文在实验中,将存在倾斜变形的文本图像在校正前与校正后分别输入OCR软件TH-OCRMF7.50进行文字识别,其识别率分别为77.1%和97.8%,校正后的文本图像的文字识别率与校正前相比增加了20.7%,对倾斜变形文本图像的校正有效提高了OCR软件的文字识别率,证明算法有效。 图4.8.1倾斜变形文本图像的OCR识别图4.8.2倾斜校正后文本图像的OCR识别 图4.8校正前与校正后倾斜变形文本图像的OCR识别比较 Fig.4.8TheOCRrecognitionofdocumentimagewithinclinationdeformationbeforeandaftercorrection §4-2透视变形文本图像的校正 当数码相机像平面与被拍摄文本的物平面不平行时,则会产生透视变形,如前文图3.1.2所示。透视变形文本图像虽然文字行曲线仍然近似直线,但相邻文字行并不保持平行关系,所以倾斜变形几何校正算法并不能适用于透视变形文本图像。传统的透视变形校正算法都或多或少地需要人工参与,文献[37]提出的一种几何畸变自动校正的方法弥补了现有透视变形几何校正方法需要人工介入的不足。该方法首先提取出图像中任意四边形的边缘轮廓,求得四边形的四个顶点;然后构造方形物体纵横比参数的方程组,解出纵横比,根据畸变校正矩阵利用纵横比前后的对应顶点坐标进行几何校正,校正之后再判断是否需要对校正后的图像进行旋转[37]。这种方法能实现透视变形文本图像自动校正的要求,并且具有较好的鲁棒性,只是算法较复杂,因此在此基础上提出一种改进的算法,改进算法主要是利用前文中 31 文本图像的几何畸变校正技术研究 已经取得的文本行曲线特征点,简化了控制点——即文本区域潜在四边形顶点的自动提取,下面对该算法做具体研究分析。 4-2-1透视文本图像潜在文本框顶点的确定 对拍摄的透视文本图像完成二值化处理后,可以应用文本区域潜在凸四边形文本框与还原文本图像中潜在的矩形文本框的四个顶点的对应关系,确定透视变换的单应矩阵,然后再利用此单应矩阵实现对透视文本图像的校正变换。 实现透视变形文本图像校正的关键在于潜在凸四边形文本框的确定。下面具体介绍基于前文中已经取得的文本行曲线特征点的潜在文本框提取算法。步骤1确定凸四边形的上部直线和下部直线 在第三章文本图像几何畸变类型的自动分类部分,我们已经得到用于拟合文本行曲线的特征点及拟合直线,而这些特征点和拟合直线的信息已经存储在数据库中,在此我们可以用来确定潜在凸四边形的四条外围边框直线。 根据已得的拟合直线的参数信息,计算平均行长AverageLen,由上而下找出第1个行长>0.7AverageLen的行作为凸四边形的顶部直线TopLine,由下而上找出第1个行长>0.7AverageLen的行作为凸四边形的底部直线BottomLine[11]。步骤2确定凸四边形的左部直线和右部直线 1)把每一文本行行尾的特征点表示为Pi(xi,yi),并依次连成图4.9.1所示的右边界单调折线Lr。 图4.9.1右边界单调折线Lr图4.9.2无左凹点的Lr图4.9.3右边界直线Lr图4.9右边界直线的形成步骤示意图Fig.4.9Generationstepsoftherightmarginline 2)舍弃Lr中向左的凹点: 反复搜索Lr,如果满足条件detPi,Pi+1,Pi+2>0&&fabs(detPi,Pi+1,Pi+2>e),则删除中间点 Pi+1,直到Lr满足如图4.9.2所示的中间没有向左的凹点。其中CharSize为根据文本行平均高度估计 的字符尺寸,detPi,Pi+1,Pi+2为Pi,Pi+1,Pi+2三个点逆时针构成的三角形面积的2倍,e=C∗CharSize∗CharSize,试验证明C可以取为0.25。 3)得到右边界上的点:应用detPi,Pi+1,Pi+2<0&&fabs(detPi,Pi+1,Pi+2>e)的判别式可以连续消除图4.9.2中Lr下部向左折线点,用对应的方法消除图4.9.2中Lr上部向左的折线点,得到图4.9.3所示的Lr,在此设图4.9.2中Lr底部不存在与实际右边界直线底部的第一个点连成3点一直线的向左的折线点,因为这种情况实际上几乎很少遇见。 4)用最小平方误差法拟合图4.9.3中Lr上的点为实际右边界直线RightLine。5)用上面步骤对应的算法生成左边界直线LeftLine。 32 步骤3确定凸四边形4个顶点 计算直线LeftLine与TopLine的交点Q0(x0,y0),TopLine与RightLine的交点Q1(x1,y1), LeftLine与BottomLine的交点Q2(x2,y2),RightLine与BottomLine的交点Q3(x3,y3),这四个点 即凸四边形的四个顶点。 4-2-2基于单应矩阵的透视变换 平面文本图像与其成像的透视文本图像上对应的点对关系可以用透视变换的单应矩阵[38,39]表示: ⎡x'1⎤⎡h0⎢'⎥⎢⎢x2⎥=⎢h3⎢x'3⎥⎢⎣⎦⎣h6 ' h1h4h7 h2⎤⎡x1⎤h5⎥⎢x2⎥⎥⎢⎥1⎥⎦⎢⎣x3⎥⎦ (4.16) 式中,xi为平面文本图像的坐标;xi为透视文本图像的坐标。式(4.16)可以简记为 X'=HX' (4.17) H为非奇异矩阵,用点的非齐次坐标代替点的齐次坐标,对应点x和x得非齐次坐标分别为 (x,y)和(x',y')。那么2D透视变换可以写成非齐次形式: h0x+h1y+h2⎧ x'=⎪⎪h6x+h7y+1(4.18)⎨hx+h4y+h5⎪y'=3⎪h6x+h7y+1⎩T令h=(h0,h1,h2,h3,h4,h5,h6,h7),若已知透视文本图像与平面文本图像对应的四个(任意3点不共线的)点对的位置关系,可得到8个线性方程: ⎧(x1,yi,1,0,0,0,−xixi',−yixi')h=xi'⎨ ⎩(0,0,0,x1,yi,1,−xiyi',−yiyi')h=yi' i=1,2,3,4 (4.19) 解方程组就可得到单应矩阵中每一个hi的值。应用解得的透视变换单应矩阵H,就可以对透视文本图像中的每一像素实现透视变换,将透视变形的文本图像校正为近似无变形的原文本图像的正视图。 拟定4个目标映射点W0(u0,v0),W1(u1,v1),W2(u2,v2),W3(u3,v3)为矩形的4个顶点,其中: u0=u2=(x0+x2)/2,u1=u3=(x1+x3)/2,v0=v1=(y0+y1)/2,v2=v3=(y2+y3)/2。 把前面得到的Q0,Q1,Q2,Q3和W0,W1,W2,W3这4对顶点代入式(4.19)可以得到h阵,然后将透视文本图像的前景点逐点带入到式(4.18)得到校正后的矩形文本图像,之后再进行插值处理,以保持校正变换后字符笔画的连接性。 4-2-3算法评析 该算法基于前文中已经取得的文本行曲线特征点,提取出文本图像中潜在文本框的边缘轮廓,求得文本框四边形的四个顶点;然后构造方形物体纵横比参数的方程组,解出纵横比,根据透视变换的单应矩阵利用纵横比前后的对应顶点坐标进行几何校正。根据此算法得到的图3.1.2透视变形文本图像的校正效果如图4.10所示。 试验中,将透视变形的文本图像和对其进行校正后的图像分别输入OCR软件TH-OCRMF7.50进行文字识别,其识别率分别为25.4%和51.6%,校正后的文本图像的文字识别率是校正前的2.03倍。对文本图像的透视校正大大提高了OCR软件的识别率。试验证明,该方法针对透视变形文本图像的畸变校正所提出的自动校正方法,具有处理速度快、易于实现的特点。并且,该方法可作为增值功能嵌入到数码相机、手机等数码设备中,实用性高。 33 文本图像的几何畸变校正技术研究 图4.10图3.1.2中透视变形文本图像的校正图像 Fig.4.10Thecorrectedimageoffig.3.1.2 图4.11.1透视变形文本图像的OCR识别图4.11.2透视校正后文本图像的OCR识别 图4.11校正前与校正后透视变形文本图像的OCR识别比较 Fig.4.11TheOCRrecognitionofdocumentimagewithperspectivedistortionbeforeandaftercorrection §4-3扭曲变形文本图像的校正 文本图像的扭曲变形是由成像面和物平面的倾斜、物平面本身的弯曲等造成,表现为曲线性弯曲。由于扭曲变形的形式复杂多样,所以现有算法也都是对应用场合具有一定的针对性,而没有绝对的通用算法。对于具体问题,还需要探讨各种方法的适用性,以便确定更简单有效的方法。 分析前人的工作,总的来说,扭曲变形文本图像的校正方法大体分为三类:(1)以文本图像先验知识为前提的几何畸变校正方法,最典型的是基于标定网格的校正算法;(2)不需先验知识而以文本图像特征为基础的几何畸变校正方法,最常用的是基于图像特征信息构建成像模型的图像恢复算法;(3)基于文字信息的几何畸变校正算法,例如依据文字笔画特点等等。其中,基于标定网格的方法需要先验知识,不符合本课题自动校正要求,在此不做研究。下面对第(2)(3)类方法的适用范围和效率进行研究并做比较分析。 4-3-1基于图像特征构建模型的文本图像恢复算法 应用于文本图像几何畸变校正的基于图像特征构建模型的算法现在多种。文献[40]提出了一种针对装订积厚文本扫描时,由于页面不能紧贴扫描平面而在离装订线较近一侧产生的文本扭曲校正算法。该方法采用垂直投影函数和有效包围盒定位文本,用包围盒内文本的加权重心作为标记点,并将其连线作 34 为文本中心线。算法假设积厚文本表面成圆柱面,根据文字行曲线构建圆柱面模型,用Kanungo[41]模型描述文本的几何变形。通过中心线信息近似计算三个参数:焦长度、圆柱截面的圆弧半径和弧角。然后通过计算,将标记点变换至原有的水平位置。最后,文本行通过四边形映射和双线性插值实现校正。该方法简单有效,但要求页面曲面的横截面为圆柱面,且要求柱面的母线与像平面平行,致使该算法的应用领域具有一定的局限性,只适用于积厚文本图像扫描复印情况下。Brown等[42,43]提出了一个从任意表面恢复文本的计算框架,但需要通过特殊的数字化设备来捕获三维表面模型。 但这些方法都还是比较适用于由扫描仪扫描所得的文本图像的校正,这类图像的特点是设定场合为扫描仪情况下,其扭曲变形具有积厚文本表面成圆柱面,且母线与像平面平行等硬性要求,所以这些校正算法不能适用于由当下灵活的数码设备所获得的变形复杂的图像。 Wada等[44,45]提出一种从阴影恢复页面曲面的模型。该模型考虑了五种特性:近光源、互反射、运动光源、高光反射、非均匀反照率分布。该模型涉及众多待估参数,而且针对中间计算所作的假定影响了它的推广性,如假定页面的反射属性为己知信息,这在实际应用中是不现实的。因为图书的纸张质量参差不齐,大多数情况下我们并不知道该参数;同时,该算法没有考虑纸张透光性所引起的噪声。 基于上面的以shape-from-shading(简称SFS)方法从明暗重构文本材料三维模型的算法,L.Zhang等[46]提出了一种基于shape-from-shading(简称SFS)的改进算法用于从明暗重构文本材料三维模型的文本页面的重构。该算法对文本图像阴影的去除以及透视和扭曲变形均有很好的效果。并且应用限制较少。该算法的基本构架如图4.12所示。 图像修复掩模提取(边缘检测和形态学算子)输入变形文本图像(I)前景移除(调和/TV图像修复)平滑底纹提取(迭代掩模改进/RBF平滑)形状重建(延展的SFS方法)反射图像推导(I几何失真校正(基于物理展平)=Ishading∗Ireflectance)去除阴影、背景噪声的图像(Ip)纹理映射(重构形状寄存器Ip)最终校正图像(If)aba图4.12基于SFS算法的文本图像恢复算法基本构架 Fig.4.12SFSalgorithmbasedonthetextofthebasicframeworkofimagerestorationalgorithm 35 文本图像的几何畸变校正技术研究 由基本构架可以看出,该算法的主要思想是:首先提取背景层的平滑明暗底纹,将图像分割成明暗底纹与前景文本图像两个部分,然后利用明暗底纹实施SFS形状重建,最后通过基于物理的方法将纹理映射的前景文本图像展平到一个平面,从而达到文本图像的几何失真校正。具体步骤在接下来的三个小节中做具体研究。步骤1平滑底纹的提取 提取文本图像的底纹即要重建一个背景层,我们首先确定像素是否属于背景层。这里我们假设,在大多数的图像中,前景文本像素相对于黑暗阴影和其他噪音(渗墨、水印等)具有更低的像素值。这项任务类似于文本定位,不同的是我们所感兴趣的是所有能引起反射变化的文字和图表等。现有的文本定位技术已经广泛应用于数字视频等领域,该技术大致分为基于构件的方法和基于纹理特征的方法。基于构件的方法通常通过分析文字的颜色或边缘等几何条件实现文字定位,而基于纹理特征的方法则是利用文本行的纹理特征提取文本。 鉴于变形文本图像的特点,在此采用基于构件的方法能够更准确更有效地实现文本定位。如前所说,设定前景文本像素与背景像素灰度值有较高的对比度,然后对边缘检测所得图像进行形态学运算,进而得到前景像素的掩模。具体步骤如下: (1)通过亮度通道将图像由YUV色彩模式转变成灰度图像; (2)使用Canny算子对图像进行边缘检测。选取不同阈值直到能很好区分前景笔画像素与背景噪声。(3)进行形态膨胀后再使用形态闭合,目的是在图像修补过程后尽可能区分出前景像素与噪声而将前 景掩模掉。结构元素大小可手动调节亦可根据估计的平均字符高度进行自动调整。 根据以上步骤提取到掩模以后,便可以利用掩模将前景目标像素与背景像素分开,但为了得到平滑的背景层,除需应用迭代改进掩模的方法,还要采用基于调和/整体变分(TV)的图像修补以及基于径向基函数(RBF)的图像平滑技术,最终得到经修补的背景层底纹图像。 对于伯朗表面,强度图像等于背景图像与反射图像(在此指前景文本图像)的乘积。即根据HSV模型有I=Ishading∗Ireflectance,现已提取出背景层图像,则前景层文本图像可根据式Ir=elogI−logIs。而去除阴影、背景噪声后的光度校正图像Ip=k⋅Ir,其中k∈[0,1]。步骤2基于SFS的形状重建 从明暗恢复形状(SFS)也称基于灰度的方法,它从图像灰度信息出发,利用明暗(即灰度)信息恢复物体的三维形状。这种根据物体图像灰度的变化来求解物体表面三维形状的方法,主要原理是利用物体图像的明暗变化来恢复其表面各点的相对高度以及表面法方向等参数,从而恢复出物体的三维形状 [47]。将该方法用于存在几何变形的文本图像,就是要利用文本图像背景层的灰度变化来重构文档页面 的空间形状。 通常物体表面的灰度分布主要与观察者的位置、光源的方向和强度、物体表面几何形状以及被光线照射的物体表面的反射特性等因素有关[48]。为简化问题,SFS通常进行如下假设:反射模型为伯朗体表面反射模型;光源为无限远处点光源;成像几何关系为正交投影。在SFS研究中,通常采用图4.13所示的坐标系,同时将物体表面高度表示为z=z(x,y)。据此,成像模型根据二维图像中某像素点的灰度值与物体表面对应点,按照反射图函数得到的灰度值相等,可以表示为式(4.20)所示亮度方程: I(x,y)=R(p,q)(4.20) 式中,表面方向p=∂z/∂x),q=∂z/∂y)是物体表面点高度z关于图像坐标的偏导数;而R是反射图函数,它表示感受的光亮度随表面方向的不同而发生变化,具体形式如式(4.21): R(p,q)=η(n×s)=η(cosγ−Pcosτsinγ−qsinτsinγ)/1+p2+q2 (4.21) 其中,η是曲面反射率,设为常数;n=(−p,q,1)/1+p2+q2为表面点(x,y,z)处法线; s=(cosτsinγ,sinτsinγ,cosγ)为光源方向;τ和γ分别为光源偏角、倾角。其意义如图4.13所示。 36 图4.13系统坐标示意图 Fig.4.13Thesketchmapofthesystemcoordinates 以平滑底纹提取步骤提取出的背景层阴影图像为基础,就可以用SFS方法重构文本材料表面的三维模型。 步骤3基于物理的形状展平 利用背景阴影层得到重构的三维文本表面模型,就可以精确地描述文本的几何变形。接下来需要构造一个具有统一采样频率的3D采样网格。根据透视投影原则:x/u'=y/v'=z/f,将去噪后的文本图像纹理映射到表面模型。然后通过数值建模过程将其展平到一个平面,即完成了几何变形的校正得到了最终的校正图像。 该方法对一般非均匀光照条件下的文本图像的校正效果较好,适用范围较广,鲁棒性较强。缺点在于当光源复杂、背景层的阴影特殊或非平滑时,基于SFS的形状重构算法失效,导致校正失败。另外该算法复杂,耗时较大,很难满足实时性的要求。 4-3-2基于文字信息的文本图像恢复算法 一种常见的基于文字信息的文本图像恢复方法是多项式变形技术[49,50],这种方法的实质是利用数值分析的办法求解几何变换方程。优点是不需要预先知道成像模型对复杂曲面畸变能够进行矫正。缺点一是运算量大,不适用于实时性要求较高的系统,二是这种方法对多项式的次数和控制点的选取要求严格,发生矫正失控(即图像出现非正常扭曲)的概率很大,Zhang等[12]提出了一种完全基于文字信息的文本校正方法。该方法通过修正的盒柄算法提取单词的中心位置以及单词扭曲的角度;利用Hough变换作用于文本行将其生成一条直线;然后将单词的中心投影至该直线,之后通过对单词的旋转完成校正工作。但是该算法中压缩变形的单词没有得到拉伸,而且长单词容易出现校正失控,另外有人提出了一种基于切分的视觉文本图像校正技术[51],该方法通过寻找文字的竖直笔画边界(VerticalStrokeBoundary,VSB)、文字行的上、下边界,然后根据文字块的上、下边界和VSB构成的小四边形进行校正。该方法对英文文本图像校正效果颇佳,但因为需要提取VSB,所以对于汉字文本图像效果不太理想。还有人提出了一种新的文本图像校正技术[52],但是由于该方法中涉及到文字行趋向计算以及可展面估计,所以速度较慢。 文献[10]提出一种基于文本行曲线函数的文本校正算法。而在本文第三章畸变类型自动分类算法中 37 文本图像的几何畸变校正技术研究 已得到文本行曲线函数,这就简化了该算法,而且运算量较小。基于文本行曲线函数的文本校正算法原理如以下: 已知各文字行的曲线函数,可以通过下面算法找出两条最典型的曲线。所谓最典型的曲线是指他们最能代表所有文字行的最佳线性组合。设从n条文字行挑选出最具代表性的两条文字行为第i行和第j行,而其余的n-2条文字行曲线可由第i行和第j行曲线进行线性组合而成,且使得误差最小。采用式(4.22)所示误差公式: ERError(1,j,k)=∑[Fj(x)−Fi(x)] ELFk(M)−Fi(M) +Fi(x)−Fk(x) Fj(M)−Fi(M) (4.22) 其中,Fi(x)为第i条文本行的曲线函数,EL、ER表示文字行的左右边界,则文字行的中心可以表示为M=(EL+ER)/2。 根据上述误差公式,对全部n条文本行曲线分别计算误差,取当中最小者。 (imin,jmin)=min k=1,k≠i,j∑Error(i,j,k) n(4.23) 接下来根据这两条典型曲线Fi(x)和Fj(x)来对文本图像进行恢复。Xnew和Xold分别代表校正后图像和原畸变图像的横坐标。而y1,y2为两条典型曲线Fi(x)和Fj(x)相对应的新的纵坐标。 Xnew=Xold⎧ ⎪ ⎨Y=[Yold−Fi(Xold)](y2−y1)⎪new[Fi(Xold)−Fj(Xold)]⎩ (4.24) 4-3-3算法评析 经实验证明上述基于文本行曲线函数的文本校正算法对扭曲变形文本图像的校正效率高,适用范围广,而且校正精度也较高。缺点是部分被压缩的文字得不到舒展,且存在大量的噪声。如图4.14为对 图3.1.3的扭曲变形文本图像进行校正后的文本图像。 图4.14图3.1.3中扭曲变形文本图像的校正图像 Fig.4.14 Thecorrectedimageoffig.3.1.3 试验中,将一幅存在扭曲变形文本图像及其几何校正后图像分别输入OCR软件TH-OCRMF7.50进行文字识别,其识别率分别为69.9%和90.2%,校正后的文本图像的文字识别率与校正前相比增加了20.3%。对倾斜变形文本图像的校正有效提高了OCR软件的文字识别率,验证了校正算法的有效性。 38 图4.15.1扭曲变形文本图像的OCR识别图4.15.2扭曲校正后文本图像的OCR识别 图4.15校正前与校正后扭曲变形文本图像的OCR识别比较 Fig.4.15TheOCRrecognitionofdocumentimagewithtorsiondeformationbeforeandaftercorrection §4-4本章小结 本章分别研究了倾斜变形、透视变形和扭曲变形文本图像的几何校正的现有典型算法的原理、性能及适用范围等,然后以第三章中本文所提出的畸变类型自动检测与分类方法中所得文本行特征信息为基础,对现有校正方法提出了改进措施,最后分别根据OCR软件对校正前后的文本图像的识别率,验证了校正算法的有效性。 39 文本图像的几何畸变校正技术研究 第五章总结与展望 §5-1论文工作的总结 文本图像几何畸变校正技术作为版面分析和OCR识别等相关软件的必要的预处理技术,亟待发展。目前,已经有很多几何畸变校正的方法应用于畸变文本图像。但是这些方法都是针对某一种或两种几何变形有效,而没有绝对通用的算法,需要对不同变形类型的图像采取不同的有效校正算法。因此,为实现文本几何畸变图像的自动校正和批量处理,论文重点对文本图像几何畸变的自动检测及分类进行了研究,并提出了一种有效地自动检测文本图像几何畸变并识别其畸变类型的方法。 论文的具体工作过程及成果如下: 论文在讨论文本图像二值化、去噪技术的基础上,通过分析引起文本图像几何畸变的原因及畸变特征,将畸变类型分为倾斜变形、透视变形和扭曲变形。根据变形图像文本行的特点,提出文本图像几何畸变自动检测和分类方法。该算法结合数学形态学处理与曲线拟合等,实现对文本图像几何畸变的自动检测并对其畸变类型进行识别,为几何畸变文本图像的自动校正奠定了基础。 然后分别针对倾斜变形、透视变形和扭曲变形三种畸变文本图像,在对现有校正算法的原理、性能及适用范围进行分析的基础上进行了探索性研究,并提出了一些改进方法:(1)对于倾斜变形文本图像的校正,首先研究了现有几种倾斜检测的经典算法,然后根据畸变类型自动检测方法,在现有算法基础上提出了一种适用于本文图像的改进算法,即基于直线拟合的文本倾斜检测算法。并对各种倾斜角度检测算法的性能进行了比较;(2)对于透视变形文本图像的几何校正,依次研究讨论了透视文本图像潜在文本框顶点的确定算法和基于单应矩阵的透视变换,最后根据校正效果对本文采用的基于分类算法所得文本行特征点数据库的潜在文本框提取的改进算法进行了评析;(3)对于扭曲变形文本图像的几何校正,分别研究了两类典型的国内外现有的扭曲变形文本图像几何校正算法并对其性能及适用范围做了研究分析,并将前面所得文本行曲线函数用于基于文字信息的文本行曲线算法,简化了原有算法。论文所提的文本图像几何畸变自动检测及分类算法在Matlab环境中进行了验证,实验图库为由三种几何畸变类型的文本图像及未发生几何畸变的文本图像各25幅建成的小规模样本库。实验结果表明该算法具有较高的文本图像畸变类型检测识别率,达到96%以上,尤其是对弯曲变形的文本图像检测识别率很高。而且该算法实现简单,计算量小,并且具有较强的鲁棒性。然后通过试验比较几何变形文本图像校正前后的OCR文字识别率,分别对三种变形文本图像几何校正算法的改进算法进行了验证。结果表明,与原有算法相比,改进算法所得校正图像的OCR识别率不低于原有算法,但所用时间降低,基本满足实时性要求。 在数字化和信息化的现代,该文本图像几何畸变自动校正系统还具有广阔的潜在应用前景,可以作为增值功能嵌入到数码相机、手机等数码设备中,实用性高。例如为拍照手机提供文字提取、识别、录入和翻译等强大功能,结合电子地图等其他工具,就有了一个方便的国外导游设备。 §5-2展望 论文提出的文本图像几何畸变自动检测和分类方法虽然具有较高的识别率,尤其是对弯曲变形的文本图像识别率很高,但要应用还需要增大样本数量。另外,通过对误识样本分析,其误识原因主要在于该类文本图像版面过于复杂,存在大量公式、表格和图像等,有效文本行过少,无法得到足够的文本行走向信息。因此,在以后的研究工作中,可以考虑加入表格线、图像边框等可利用的信息来使该算法更具有普遍适用性。 40 目前,对倾斜变形和透视变形图像的校正方法已经比较成熟,国内外有很多校正方法,而且不断有新的更高效率的方法被提出。本文对此提出的校正算法也是结合畸变类型检测与分类算法所得部分参数,对现有算法做的改进。而对于扭曲变形文本图像的校正,国内的研究资料还很少,而这种畸变是不可避免的,因此对扭曲变形文本图像的校正问题是以后研究的重点。 41 文本图像的几何畸变校正技术研究 参考文献 1234567 刘婀娜,罗予频,华成英.变形文档图像的矫正方法研究[J].微计算机信息,2007,23:260-262秦旭光,徐爱功.图像几何校正在OCR文字识别中的应用[J].辽宁工程技术大学学报,2006,25:64-66 赵庆鹏,马华东.自适应几何畸变图像矫正方法研究.见:第三届和谐人机环境联合学术会议(HHME2007)论文集[C].北京:清华大学出版社,2007.376-382 MingChen,XiaoqingDing.ARobustSkewDetectionAlgorithmforGrayscaleDocumentImage.IEEEInternationalConferenceonDocumentAnalysisandRecognition.Bangalore,India,1999,:617-620张雪峰,张全法等.一种扫描图像几何畸变的数字校正方法[J].视频技术应用与工程,2003,9:78-79王峰.复杂背景环境下的车牌定位及字符分割:[硕士学位论文].陕西:西北工业大学,2007李云华.相似表格图像档案的表格提取与压缩存储方法研究:[硕士学位论文].山东:山东师范大学,2008 8邓婷.数字图像处理在车牌识别系统中的应用:[硕士学位论文].湖南:湖南大学,20079王海杰.文档影像图像处理中的纠偏与降噪研究:[硕士学位论文].浙江:浙江大学,200810田学东,马兴杰,韩磊,刘海博.视觉文档图像的几何校正.计算机应用,2007,27(12):3045-304711贺志明.数码相机拍摄的透视文本图像的校正.上海工程技术大学学报.2007,3(21):260-26412ZhangZ,TanCL.RestorationofImagesScannedfromThickBoundDocuments[OL].http://www.comp. nus.edu.sg/zhangz/icip01.pdf,200113孙楠,刘志文.一种改进的中文文档图像倾斜检测方法.计算机仿真.2006,9(23):184-187 14RafaelC.Gonzalez,RichardE.Woods,StevenL.Eddins.数字图像处理(MATLAB版).阮秋琦,等译.北 京:电子工业出版社,2005.378-38415白利波.车牌检测与识别算法研究:[硕士学位论文].北京:北京交通大学,2007 16RafaelC.Gonzalez,RichardE.Woods,StevenL.Eddins.数字图像处理(第二版).阮秋琦,等译.北 京:电子工业出版社,2005.423-42717赵素霞.基于数字图像处理方式的EAN_13条码识读算法研究:[硕士学位论文].山东:山东大学, 2005 18北人方正集团有限公司,北京北大方正技术研究院有限公司,北京大学.一种文稿图像几何畸变的校正方法.中华人民共和国,发明专利,CN200510135184.2006年7月19日 19张森.数字图像几何畸变自动校正算法的研究与实现:[硕士学位论文].上海:上海交通大学,200720王金鹤.扫描图象曲线轮廓关键点的提取及其处理[J].中国图象图形学报,2001,6(7):699-70221严由辉.基于手机设备的自然场景文本分析:[硕士学位论文].西安:西安电子科技大学,200922牛轶峰,伯晓晨,沈林成.基于可变模板的文木倾斜检测[J].计算机工程,2003,16(29):93-9623彭建.小字符集自适应字符识别技术及系统的研究:[博士学位论文].重庆:重庆大学,200224X.Jiang.H.Bunke.D.W.Kljajo.SkewDetectionofDocumentImagesbyFocusedNearest-Neighbor Clustering.In:ProceedingsoftheFifthInternationalConferenceonDocumentAnalysisandRecognnition.Bangalore,1999,:629-63225杨波.基于内容的文档图像压缩方法研究:[博士学位论文].重庆:重庆大学,2002 26R.Smith.ASimpleandEfficientSkewDetectionAlgorithmviaTextRowAccumulation.In:Proc.ofthe 3rdInternationalConferenceonDocumentAnalysisandRecognition.Montreal.Canada.August1995,:1145-1148 27H.K.Aghajan.B.H.KhalajandT.Kailath.EetimationofSkewAngleinText-ImageAnalysisbySLIDE: subspacelinedetection.MachineVisionandApplications.1994,7(6):267-276 42 2829303132333435363738394041 W.Poetl.DetectionofLinearobliquestructuresandskewscanindigitizeddocument.In:Proc.ofthe8thInternationalConferenceonPatternRecognition.Paris,France,1986,:687-689 H.K.Kwag.S.H.Kim.S.H.Jeong.G.S.Lee.EfficientSkewEstimationandCorrectionAlgorithmforDocumentImages.ImageandVisionComputing2002,20:25-35 昌亚军,陈继荣,鹿晓亮.基于内容的文档图像倾斜校正.计算机仿真.2006,12(23):192-196王姝华,李佐,蔡士杰.基于直线连续性的页面倾斜检测与校正.计算机辅助设计与图形学学报,2001,13(8):734-739 张淑兵.文本图像的几何畸变校正技术研究:[硕士学位论文].西安:西安电子科技大学,2008L.O.Gorman.TheDocumentSpectrumforPageLayoutAnalysis[J].IEEETransactionsonPAMI,1993,15(11):1162-1173 刘建胜.文档图象版面理解的研究:[博士学位论文].重庆:重庆大学,2002 章霄,董艳雪,赵文娟等.数字图像处理技术[M].北京:冶金工业出版社,2005.180-184 曹致.文档版面识别技术的研究及在SEAS系统中的应用:[硕士学位论文].沈阳:东北大学,2006张森,赵群飞,冶建科.一种数字图像几何畸变的自动校正方法.机电一体化,2007,(3):60-64JagannathanL,JawaharCV.PerspectiveCorrectionMethodsforCamera-basedDocumentAnalysis[C].[s.l]:CBDAR,2005 魏坤,姜寿山,等.摄影测量中相机倾斜近期的射影失真研究[J].光电工程,2006,33(5):31-35向世明,李国英等.积厚文档扫描图像校正[J].计算机辅助设计与图形学学报,2005,17(1):42-48KanungoT,HaralickRM,PhillipsI.Globalandlocaldocumentdegradationmodels[A].In:ProceedingsofIEEEInternationalConferenceonDocumentAnalysisandRecognition,TsukubaScienceCity,1993.730-734 BrownMS,SealesWB.Documentrestorationusing3Dshape[A].In:ProceedingsofInternationalConferenceonComputerVision,Vancouver,2001.367-375 BrownMS,SealesWB.Beyond2dimages:Effective3dimagingforlibrarymaterials[A].In:Proceedingsofthe5thACMConferenceonDigitalLibrary,SanAntonio,2000.27-34 WadaT,UkidaH,MatsuyamaT.Shapefromshadingwithinter-reflectionsunderproximallightsource-3Dshapereconstructionofunfoldedbooksurfacefromascannerimage[A].In:ProceedingsofInternationalConferenceonComputerVision,Cambridge,1995.66-71 WadaT,UkidaH,MatsuyamaT.Shapefromshadingwithinter-reflectionsunderaproximallightsource:Distortion-freecopyingofanunfoldedbook[J].InternationalJournalofComputerVision,1997,24(2):125-135 LiZhang,A.M.Yip,M.S.Brown,ChewLimTan.AUnifiedFrameworkforDocumentRestorationUsingInpaintingandShape-from-Shading.PatternRecognition,2009,(42):2961-2978张慧玉.基于SFS的三维形貌恢复方法研究[J].中国科技信息,2009,(13):121-122李军,龚声蓉.基于SFS的方法恢复扫描文件图像[J].电脑知识与技术,2008,4(1):184-186ShahS,AggarwaJK.ASimpleCalibrationProcedureforFish-eye(HighDistortion)LensCamera[C].ProceedingsofIEEEInternationalonRoboticsandAutomation.1994,:3422-3427 廖士中,高培焕,苏艺等.一种光学镜头摄像机图像几何畸变的修正方法[J].中国图象图形学报,2000,5(7):593-596 LUSJ,TANCL.TheRestorationofCameraDocumentsThroughImageSegmentation[C].Proceedingsofthe7thIAPRWorkshoponDocumentAnalysisSystems.NewZealand[sn,2006:484-495 LiangJ,DementhonD,DoermannD.FlatteningCurvedDocumentsinImages[C].Proceedingsofthe2005IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition,Washington:IEEEComputerSociety,2005,:228-233 424344 45 46474849505152 43 文本图像的几何畸变校正技术研究 致谢 论文的全部工作都是在导师于明教授的如同父亲一般地悉心关怀和精心指导下完成的,从论文的选题、研究到审阅都倾注着导师巨大的心血。导师渊博的知识,严谨的治学态度,对作者产生了有益而深远的影响,在此向于明教授致以崇高的敬意和衷心的感谢。 此外还要感谢信息工程学院各位老师、同事,以及我的学友董津生、课题组成员马庆丽等同学的帮助与鼓励,他们为我顺利地完成毕业课题营造了一个很好的学术氛围,在此衷心地向他们表示感谢! 44 攻读学位期间所取得的相关科研成果 [1]吴丽平,贾静蕾,董津生,刘丽.基于纹理合成的数字图像修复方法.见:2009通信理论与技术新发展— —第十四届全国青年通信学术会议论文集(上册).北京:电子工业出版社,2009,:3-6[2]吴丽平,于明,马庆丽.文本图像几何畸变自动检测与分类.微计算机信息.(录用,待发表) 45 因篇幅问题不能全部显示,请点此查看更多更全内容