数字化领航总第14期《主动安全护航数字未来》

Focus 焦点

OCR：独具一格的“慧眼”

文/贺佳

什么是OCR？它在中国的进展现状如何？

OCR （Optical Character Recognition，光学字符识别）简单来说就是识别图片中（包括扫描仪扫描的图片，数码相机拍摄的图片）的文字，将图片进行预处理，然后检测图片中的文字位置，进而识别出文字。OCR可以辅助实现从传统纸质文档到电子文档的录入，提取图片中的指定文字信息如身份证号、电话号、车牌号等，自动进行网络图片的监控和过滤，减少相关工作的人工投入。

通常的文本传输可以通过直接检测关键字，判定是否可以放行；但是如果一些重要数据信息是通过图片方式传输的，那么就无法直接识别和检测文本，这时候使用OCR技术就可以解决此问题，先识别图片中的文字，然后进行文本策略匹配，进而选择是否放行。

OCR这一概念最早是由德国科学家Tausheck在1929年提出来的，但是针对汉字的识别技术直到1966年才开始发展。使用CJK字符系统（《统一的中日韩编码字符集》）的日本是较早开始投入OCR研究的国家之一。上世纪60年代末就有一些相关应用产品，如邮政编码识别系统。

中国在上世纪70年代才开始投入OCR方面的研究工作，到了70年代末开始投入汉字识别的研究。到了八十年代，汉字识别的研究才进入实质性阶段。

清华大学的丁晓青教授推出中文OCR产品，这是当时中国汉字OCR技术。早期的OCR软件，由于图像识别率低、速度慢和硬件限制等因素，未能达到实用性的要求。到了20世纪90年代，信息技术的发展、扫描仪的广泛应用，以及办公自动化的普及，大大推动了OCR技术的发展。而到如今，随着深度学习和神经网络等算法的研究深入，OCR的中文识别精准度又有了突破性的进展，也逐步开始广泛应用。目前比较理想的中文识别准确度可达90%以上。可以说OCR技术是模式识别和人工智能领域最为成功的应用之一。

实现OCR的两大过程

OCR的实现主要包括图片预处理和文字识别两大过程。

图片预处理一般包含如下几个过程:

二值化图像的二值化是图像预处理的一个基本步骤，首先将图像先进行灰度画处理，然后将像素点的灰度值设置为0或255，也就是将整个图像呈现出只有纯黑和纯白的视觉效果。

噪声过滤图像去噪是指减少图像中的像素污染。现实中扫描和拍摄的图片难免有光污染或者其它异物污染，这些干扰如果不处理，对识别特征和提取特征的操作通常都会有比较大的影响，所以图像去噪也是图片预处理一个基本过程。

角度校正无论是扫描图片还是拍摄图片，都可能存在图片倾斜问题，这时候如果直接做文字识别，效果会很差，因为计算特征与实际相差会较大，所以就需要对图片进行角度校准。

文字识别一般包含如下几个过程：

1、文字定位。文字定位就是通过分析图片布局，定位图片中的文字位置。将一些错误的定位在具体识别时过滤掉。

2、文字识别。早期的文字识别都是识别一些比较简单的字符，如数字、字母，并且一般都是先进行字符分割，然后再进行识别。但是早期的识别方法对中文的识别效果并不理想。近年来，随着深度学习和神经网络算法的发展，不需要对文字进行分割也可以进行比较理想的识别。

3、错误校正。错误校正一般是利用字典、分词、语义识别等技术，对识别结果进行修正，提高识别结果的准确度。

上述处理过程，错误校正一般是可选过程，但是在实际语境以及图片模糊的场景中，增加错误校正可以比较明显得提高识别准确率，其余的每个过程如果处理不当，都会对识别结果产生很大的影响。所以每一步的处理都至关重要。

OCR技术在行业方面的应用

OCR技术作为信息时代发展起来的一项信息技术，其主要是利用计算机实现对人工“慧眼”的替代，实现对众多物理信息进行处理。图像识别技术作为人工智能的重要领域之一，在计算机技术和信息技术快速发展的背景下，其也得到了愈发广泛的使用。应用OCR技术不仅可以大量地节约人力成本，实现自动化作业，还可以避免传统人力操作出现的疏漏。

OCR在安全领域中有很多重要的应用。比如早期的网络监控系统，一般仅针对文本进行检测，但是很多企业的重要数据，比如投标书、人事机密、技术机密等都可以通过图片的方式向外传输，绕过文本检测。利用OCR技术可以很好地弥补这一疏漏，防止企业的重要数据外泄。另外有些传销、赌博、暴力等信息往往通过图片传输数据，利用OCR技术可以辅助对非法信息的传输监控。在一些机密场合的门禁中增加OCR身份识别功能，必要时可触发报警。在企业内部中，由于一些重要的项目合同都需要盖章签字以及电子档的扫描录入，利用OCR技术可以直接对重要文档进行扫描识别分类，减少无关人员的干预。

另外在交通系统中，应用车牌识别技术进行违规监控。在检票系统中，利用OCR技术扫描读取身份证件信息，可进行对身份自动认证检查。在导航地图系统中，由于传统的人工录入数据方式多有滞后和失误，OCR技术与云图相结合，可以进行街道建筑等信息的自动录入，不仅成本小，准确度高，还可以做到实时快速地更新。在医疗系统中，由于早期的病例多是纸质文档，大量的纸质文档不好管理、难以查找并且容易损坏，利用OCR技术可以快速将纸质文档转换成电子文档保管，使查找和维护变得更容易。

结束语

OCR技术作为对人类脑力劳动的替代与扩展，随着深度学习和神经网络的进一步发展，未来在中文识别精准度和速度方面有很大的提升空间和潜力。在科技发展日新月异的当前时期，光学字符识别技术会愈发强大，未来能够更加智能化地走入我们的日常生活中。