Google开源OCR识别Tesseract介绍

魔众发表于阅读：2250 回复：0

OCR是什么

OCR，即 Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。通常技术中广泛流传的 OCR 指的就是“将图片转成文字”的智能技术。

Tesseract介绍

Tesseract是谷歌开发并开源的图像文字识别引擎，使用python开发。

Tesseract的安装

可以使用预编译(Pre-built)的二进制版本或者从源代码安装，在Ubuntu系统下运行

sudo add-apt-repository ppa:alex-p/tesseract-ocr sudo apt-get update sudo apt-get install tesseract-ocr sudo apt-get install libtesseract-dev sudo apt-get install tesseract-ocr-chi-sim

验证Tesseract是否正确安装，可以使用命令行来进行验证是否安装成功。

$ tesseract --version

Tesseract的使用

识别的基本用法是“imagename outputbase [options…]”，4.1的版本options只能通过“-l”选择语言。

比如对test.png进行OCR，然后把识别结果保存在test.txt里

tesseract test.png test -l chi_sim

更多的使用命令和方法，可以参照官方教程。

授权和地址

目前系统使用的是 pache License 2.0 开源协议，
官网介绍：访问 github 搜索 tesseract-ocr/tesseract

收藏赞（0）

我来评论

登录后回复

魔众

第 146 位会员

注册于

最新帖子

魔众题库系统 v10.2.0 考试VIP额度限制优化，AI功能支持编辑器，一大波功能优化新生报到魔众文库系统 v7.4.0 压缩包可预览，VIP界面优化，筛选类型优化，分片上传修复魔众短剧系统 v1.2.0 用户注册地理定位，全新界面升级支持现在还没有发布模块吗？一物一码这个系统，有没有获取防伪码的API接口魔众题库系统 v10.0.0 客服条、题目导入、考试导航、日志一大批更新新手贴有没有组卷系统啊文档预览转换功能是需要另外购买吗