总第14期
Focus    焦点
Focus    焦点
OCR:独具一格的“慧眼”
文/贺佳

什么是OCR?它在中国的进展现状如何?

OCR (Optical Character Recognition,光学字符识别)简单来说就是识别图片中(包括扫描仪扫描的图片,数码相机拍摄的图片)的文字,将图片进行预处理,然后检测图片中的文字位置,进而识别出文字。OCR可以辅助实现从传统纸质文档到电子文档的录入,提取图片中的指定文字信息如身份证号、电话号、车牌号等,自动进行网络图片的监控和过滤,减少相关工作的人工投入。

通常的文本传输可以通过直接检测关键字,判定是否可以放行;但是如果一些重要数据信息是通过图片方式传输的,那么就无法直接识别和检测文本,这时候使用OCR技术就可以解决此问题,先识别图片中的文字,然后进行文本策略匹配,进而选择是否放行。

OCR这一概念最早是由德国科学家Tausheck在1929年提出来的,但是针对汉字的识别技术直到1966年才开始发展。使用CJK字符系统(《统一的中日韩编码字符集》)的日本是较早开始投入OCR研究的国家之一。上世纪60年代末就有一些相关应用产品,如邮政编码识别系统。

中国在上世纪70年代才开始投入OCR方面的研究工作,到了70年代末开始投入汉字识别的研究。到了八十年代,汉字识别的研究才进入实质性阶段。

清华大学的丁晓青教授推出中文OCR产品,这是当时中国汉字OCR技术。早期的OCR软件,由于图像识别率低、速度慢和硬件限制等因素,未能达到实用性的要求。到了20世纪90年代,信息技术的发展、扫描仪的广泛应用,以及办公自动化的普及,大大推动了OCR技术的发展。而到如今,随着深度学习和神经网络等算法的研究深入,OCR的中文识别精准度又有了突破性的进展,也逐步开始广泛应用。目前比较理想的中文识别准确度可达90%以上。可以说OCR技术是模式识别和人工智能领域最为成功的应用之一。

实现OCR的两大过程

OCR的实现主要包括图片预处理和文字识别两大过程。

图片预处理一般包含如下几个过程:

二值化 图像的二值化是图像预处理的一个基本步骤,首先将图像先进行灰度画处理,然后将像素点的灰度值设置为0或255,也就是将整个图像呈现出只有纯黑和纯白的视觉效果。

噪声过滤 图像去噪是指减少图像中的像素污染。现实中扫描和拍摄的图片难免有光污染或者其它异物污染,这些干扰如果不处理,对识别特征和提取特征的操作通常都会有比较大的影响,所以图像去噪也是图片预处理一个基本过程。

角度校正 无论是扫描图片还是拍摄图片,都可能存在图片倾斜问题,这时候如果直接做文字识别,效果会很差,因为计算特征与实际相差会较大,所以就需要对图片进行角度校准。

文字识别一般包含如下几个过程:

1、文字定位。文字定位就是通过分析图片布局,定位图片中的文字位置。将一些错误的定位在具体识别时过滤掉。

2、文字识别。早期的文字识别都是识别一些比较简单的字符,如数字、字母,并且一般都是先进行字符分割,然后再进行识别。但是早期的识别方法对中文的识别效果并不理想。近年来,随着深度学习和神经网络算法的发展,不需要对文字进行分割也可以进行比较理想的识别。

3、错误校正。错误校正一般是利用字典、分词、语义识别等技术,对识别结果进行修正,提高识别结果的准确度。

上述处理过程,错误校正一般是可选过程,但是在实际语境以及图片模糊的场景中,增加错误校正可以比较明显得提高识别准确率,其余的每个过程如果处理不当,都会对识别结果产生很大的影响。所以每一步的处理都至关重要。

OCR技术在行业方面的应用

OCR技术作为信息时代发展起来的一项信息技术,其主要是利用计算机实现对人工“慧眼”的替代,实现对众多物理信息进行处理。图像识别技术作为人工智能的重要领域之一,在计算机技术和信息技术快速发展的背景下,其也得到了愈发广泛的使用。应用OCR技术不仅可以大量地节约人力成本,实现自动化作业,还可以避免传统人力操作出现的疏漏。

OCR在安全领域中有很多重要的应用。比如早期的网络监控系统,一般仅针对文本进行检测,但是很多企业的重要数据,比如投标书、人事机密、技术机密等都可以通过图片的方式向外传输,绕过文本检测。利用OCR技术可以很好地弥补这一疏漏,防止企业的重要数据外泄。另外有些传销、赌博、暴力等信息往往通过图片传输数据,利用OCR技术可以辅助对非法信息的传输监控。在一些机密场合的门禁中增加OCR身份识别功能,必要时可触发报警。在企业内部中,由于一些重要的项目合同都需要盖章签字以及电子档的扫描录入,利用OCR技术可以直接对重要文档进行扫描识别分类,减少无关人员的干预。

另外在交通系统中,应用车牌识别技术进行违规监控。在检票系统中,利用OCR技术扫描读取身份证件信息,可进行对身份自动认证检查。在导航地图系统中,由于传统的人工录入数据方式多有滞后和失误,OCR技术与云图相结合,可以进行街道建筑等信息的自动录入,不仅成本小,准确度高,还可以做到实时快速地更新。在医疗系统中,由于早期的病例多是纸质文档,大量的纸质文档不好管理、难以查找并且容易损坏,利用OCR技术可以快速将纸质文档转换成电子文档保管,使查找和维护变得更容易。

结束语

OCR技术作为对人类脑力劳动的替代与扩展,随着深度学习和神经网络的进一步发展,未来在中文识别精准度和速度方面有很大的提升空间和潜力。在科技发展日新月异的当前时期,光学字符识别技术会愈发强大,未来能够更加智能化地走入我们的日常生活中。

分享到
关闭