如何提高扫描仪的文本识别率一直是扫描仪用户所关心的问题之一。下面,笔者就把自己在长期使用扫描仪进行文本识别的过程中所积累的经验介绍给大家,希望对各位读者有所帮助。
一、合理设置扫描参数
要进行文本识别,首先就要把文本扫描成为图片文件。文档图像的扫描质量是OCR软件能正确进行识别的前提条件。因此,扫描参数的设置就显得尤为重要。那么,到底有哪些设置会影响到最终的识别效果呢?
1.图像类型
在以前的OCR软件中,只能对黑白效果的图像进行识别,因此我们在选取扫描图像类型时不得不选择黑白,这对于一些带有灰色底图(水印)的文稿来讲,扫描后的识别率将会变得很低。现在,新版的OCR软件都支持灰度甚至彩色识别,例如汉王OCR5.0与尚书六号等。因此,如果你碰上此类的文稿,不妨在扫描时选择图像类型为“灰度”(也称灰阶),可以大大提高识别的成功率。
2.扫描分辨率
对任何扫描任务来说,分辨率的选择都是至关重要的。对于文字识别来讲,分辨率并不是越高越好,关键是要让OCR软件“认账”。一般说来,使用200dpi的分辨率就已经能够满足识别的需要,一味地增大扫描分辨率并不会提高扫描图像的质量,相反只会徒增扫描文件的体积和减缓扫描速度。
3.扫描图像的修正
许多用户在扫描时经常忽略了正式扫描之前的图像修正工作。对于文本识别来说,恰当的图像修正能够大大提高图像中文本的清晰程度,从而提高最终的文本识别率。例如,通过对Gamma的调整,图像明显比原图像更为清晰(图1)。另外,亮度、对比度的设置在一定程度上也会影响到扫描后的图像效果。许多扫描软件还针对报刊和杂志提供了去网纹的功能,在扫描时选择此项功能可以自动过滤掉图像上的网纹,对提高识别率也能起到很大作用。
二、妙用图像处理软件
扫描完成后,或许扫描出来的图像还不是很让你满意,这时就可以使用一些常用的图像处理软件对图像进一步地调整。例如,当你的扫描仪没有提供去除网纹的功能时,不妨先以较高的分辨率来扫描文稿,然后再利用图像软件将图片缩小为需要的尺寸,这样通常能够有效消除网纹。另外,在ACDSee中有“曝光”的功能,这对于提高图像的清晰度非常有效。而在Photoshop“图像”菜单的“调整”项中我们还可以对图像的亮度、对比度等一系列参数进行设定,并能够立刻查看效果。因此,如果你觉得在扫描软件中进行设置不够直观,同时担心因为经验不足可能重复多次扫描,那么待扫描完成后再到这些软件中来调整也不失为一个好方法。
三、不可忽略的OCR软件
在购买扫描仪时,厂商都会在随机光盘中附送一款OCR软件,例如明基扫描仪提供的汉王OCR(适用于中文识别)、FineReader(适用于英文识别)。一般说来,这些随盘软件都针对该类扫描仪进行过一定优化,因此笔者并不推荐用户去使用其他的OCR软件。下面,我们就以汉王5.0为例来看看在OCR软件使用时我们应该注意些什么。
1.倾斜校正
在进行文稿扫描时,由于原稿的放置偏差,扫描后的图像可能会出现倾斜的现象。对此,大部分的OCR软件都提供了倾斜校正的功能。但是,如果倾斜角度较大,就可能在校正后发生部分文字扭曲的情况,这样这些文字就可能无法被正确识别。因此,我们在刚开始进行扫描时就应该摆正原稿的位置,而不要等到后面才来“亡羊补牢”。
2.简单的图像“修饰”
如果要识别的图像上有杂点,也可能会影响到识别的效果。幸好OCR软件都提供了一个“橡皮擦”,我们可以像在Windows的画图程序中那样,对不需要的地方进行擦除,以保证识别顺利进行。另外,如果在文稿内有OCR软件无法识别的非文字图形,也应该将它清除。
3.识别区域、顺序的选择
在很多情况下,我们需要识别的文稿都进行了分栏。如果我们直接把整个文件作为一个识别区域,那么OCR软件将会按照通常的顺序(以行为单位)而不是我们的阅读顺序进行识别。因此,识别区域的选取也是非常重要的。在按照阅读习惯分块选取区域后,OCR软件将会自动给出识别顺序,我们也可以通过点击工具条上的“设定识别顺序”按钮进行自定义操作。