Skip to content

qwedc001/tesseractOCR_umi_plugin

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

适用于 Umi-OCR 文字识别工具 的 TesseractOCR 插件

Umi-OCR LICENSE

插件说明

将本插件加载进 Umi-OCR 即可使用。

与其他插件(如PaddleOCR)相比, TesseractOCR 有这些 优点

  • 👍 英文语言的识别准确率高,且不易出现空格丢失现象。
  • 👍 自带段落分析模型,对书籍/论文排版具有精度非常好的识别率。
  • 👍 允许同时勾选多个语言库(如中文+英文+日文)进行识别。
  • 👍 使用 fast 模型库时,识别速度比 Paddle 更快。

TesseractOCR 有这些 缺点

  • 🙁 汉字体系的语言(如中文、日文),准确率欠佳。

TesseractOCR 的 适用场景

  • 纯英文内容。
  • 需要解析文章排版,如PDF识别时。

开始使用

对于用户

  1. 下载 release 中已经打包好的插件,放入 Umi-OCR/UmiOCR-data/plugins 文件夹中。
  2. 启动 Umi-OCR ,将 全局设置文字识别当前接口 改为 TesseractOCR ,然后 点击 应用修改
  3. 在各个标签页(如批量OCR)中,将 设置排版解析方案 改为 不做处理 ,以便启用TesseractOCR自带的排版解析模型。

对于开发者

如果您想对本插件进行二次开发,可以通过以下步骤进行安装:

1.clone 此项目到本地

2.本地建立一个独立的 python 3.8.10 x64 虚拟环境。

3.执行

pip install Pillow,pytesseract

4.将下载好的 Tesseract 程序文件夹重命名为 engine 并放在该文件夹下。

添加额外语言

release 包中内置有中英日以及数学识别语言库,如果您所需的语言不在其中,您可以前往 Tesseract_Fast 或者 Tesseract_best 寻找您所需要的语言库**.traineddata,下载后将其放入 engine/tessdata 文件夹中即可。

工程结构:

** 后缀表示本仓库(插件仓库)包含的代码文件。

其他文件请在Release包中获取。

tesseractOCR_umi_plugin
├─ __init__.py **
├─ api_tesseractocr.py **
├─ i18n.csv **
├─ tesseractocr_config.py **
├─ engine
│  └─ tesseractOCR 的核心引擎文件
└─ site-packages
    └─ tesseractOCR 的依赖库