Tesseract OCR

Tesseract OCR

V5.3.3.20231005

47.8MB 多语言 >=7 winall

立即下载

无广告 无病毒 官方版

软件介绍

Tesseract OCR是一款OCR(optical character recognition,光学字符识别)开源库,可将包含文本的图像识别为计算机文字(计算机黑白点阵)。图像中的文本一般为印刷体文本。

Tesseract OCR

软件特色

1、Tesseract OCR不仅可以处理简单的文本,还可以识别多种语言和复杂的文字排版,包括斜体文字和印刷体文字。

2、为了提高识别准确性,Tesseract OCR还提供了一些优化选项;例如是否识别斜体文字、忽略特定字符或识别特定字符等;

3、用户可以根据需要通过编辑词典或添加自己的训练数据来进一步定制OCR引擎以适应特定的需求。

安装步骤

1、在本站下载最新安装包,按提示安装

Tesseract OCR

2、安装进行中,完成即可使用

Tesseract OCR

使用方法

tesseract-ocr使用教程:

下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录。

从开始菜单(或者安装目录)的Tesseract-OCR文件夹中,点击Console,启动命令行窗口。键入命令tesseract,会显示相关提示信息,可使用命令“tesseract --help-extra”显示更详细的帮助信息。

基本语法命令

进行文字识别的基本命令语法如下:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

识别图片中的英文字母和数字

将图片保存为文件“D:\temp\abcdef.png”,使用命令

tesseract d:\temp\abcdef.png stdout进行识别

不能识别图片中的简体中文

上述软件安装过程中,并未安装简体中文的训练数据集。

已有的训练数据集可使用命令“tesseract --list-langs”查看,也可直接在目录“D:\Programs\Tesseract-OCR\tessdata”中查看扩展名为traineddata的文件。

详细信息

最新软件

查看更多

精选教程

查看更多

猜你喜欢