我的作品独树一帜的 OCR 工具-PearOCR

ImageKnight · 2022年03月02日 · 最后由 clbcl 回复于 2022年03月17日 · 457 次阅读

OCR 工具能把图片上的字符转换为可以选择复制的文字，是把纸质文件转换为电子版，摘录纸媒文字段落等场景利器，能免去手打的痛苦。这是一个历史悠久的技术了，网上有数不清的 OCR 工具，然而从技术层面上来说 PearOCR 应该是独树一帜，下面就来说说 PearOCR 有什么特点吧

纯网页应用，点开即用，用完即走

作为一个有轻微洁癖的电脑用户，每次需要下载软件到电脑/手机上的时候总是十分纠结，既担心会生成一堆文件占用硬盘储存空间，又担心可能有病毒木马，还担心想卸载的时候卸不干净，最重要的是经常装了软件用了一两次之后就不再用又忘记卸载，导致一直有文件在设备上。而使用 PearOCR 则完全不用担心这些问题，PearOCR 只是一个网页，用浏览器打开就可以使用，不需要用的时候关闭网页就行，不用担心文件残留占用硬盘的问题（和所有的网页一样，PearOCR 也会有缓存文件，不过这是由浏览器自动管理的，不需要处理）

在浏览器完成所有识别过程，无数据上传

上面所说的网页应用其实很多 OCR 网站都可以做到，而真正让 PearOCR 独树一帜的技术就是无需上传数据到服务器识别，所有过程都是在浏览器上运算。OCR 识别不同于其他图像处理技术，需要庞大的运算过程，其他 OCR 工具要么就是下载巨大的运算软件到设备上进行本地运算，要么就是把图片传到服务器由服务器完成运算再传回到终端设备上（目前其他网页 OCR 识别均使用此方法）。把图片传到服务器的话会有数据泄露的隐患，大数据时代，数据的重要性让我不放心把数据交给云服务商。不同于其他在线 OCR 网站凭厂商良心保证数据安全，PearOCR 根本没有数据上传因此完全没有数据泄露的问题。

在原图上直接排版，方便快捷地选中所需文本

一般的 OCR 工具识别到文字之后，结果呈现的方式都是重新进行排版，比较好的工具会尽量还原排版样式，不过由于文本排版方式和原图的巨大差异，通常不能很好的还原，如果原图的文本排版比较杂乱无章，需要在识别结果中找到所需的文本段还是比较麻烦的，而 PearOCR 可以把结果直接 “粘” 在原图上，一眼就能选到所需的文本段落。

移动端友好

最开始的 PearOCR 是没有对移动端进行适配的，因为我主要的使用场景只在 PC，后来发现使用手机访问 PearOCR 的用户也不少，在 2.0 版本重构了整个 UI，对移动端做了适配，现在已经能用手机浏览器访问并使用 PearOCR 了

易用的操作方式

PearOCR 在设计的时候一直都注重降低使用成本，优化用户体验，在选取图像的方式上除了传统的打开文件对话框外，还支持读取剪切板，Ctrl+V 粘贴图片，这是我最常用的方式，通过 QQ，微信或其他工具截完图后，在 PearOCR 网页上按下 Ctrl+V 即可对截到的图进行文字识别，十分快捷并且不需要保存截图为临时文件。

除了上面所说几点外，PearOCR 还有很多特性，比如导出 pdf 支持隐藏文字，导出 docx/txt，易错字高亮提示等等特性等你来体验。

开发随记

最初开发 PearOCR 的时候其实心里是挺没底的，不知道能不能做出来，做出来的效果又好不好。因为在浏览器上跑 OCR 算法是一个很大的技术挑战，作为一个网页，首先文件不能太大，一个网页几十上百 M 的话还没等加载完成就被关闭了，而 OCR 的运算程序一百 M 都算是小的了。其次浏览器作为一个沙箱，其运行效率要比原生软件低不少，尤其对于 OCR 这种运算密集型任务，整体效率要低 50%。最开始的版本用的是开源的运算引擎，尽量精简后移植到浏览器上用也有 70 多 M，识别一张 512x512 的图片要一分多钟，后来决定自己完全重写运算引擎，锱铢必较地减少空间占用，一点一点地提升运算效率，其中遇到瓶颈时的沮丧气馁，完成技术突破时的喜悦振奋，相信做过技术攻关的人都能体会个中滋味。最后功夫不负有心人，在多次优化迭代之后，运算引擎的体积降到了 6M，识别耗时也在几秒内，已经具备了很强的实用性。