We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
2.1.4
win11
PaddleOCR
识别文档中的“不寐”两字时,截图识别可以很容易的识别出来,而批量文档识别,却识别不出“寐”字,或者错识别出其它文字。
调大“限制图片边长”,也无法解决。 在处理其它文档时也有类似的问题。
请问,我在批量文档识别时,需要注意什么配置吗?或者需要对PDF做什么预处理操作。
源文件PDF截图:
配置:
The text was updated successfully, but these errors were encountered:
你已经选择为 整页强制OCR ,这样程序会用类似截图的原理获取页面图像来识别。你可以修改参数提高DPI来增加图片精度:
整页强制OCR
用记事本打开 Umi-OCR\UmiOCR-data\py_src\mission\mission_doc.py ,前面第19行有个:
Umi-OCR\UmiOCR-data\py_src\mission\mission_doc.py
MinSize = 1080 # 最小渲染分辨率
它表示将PDF渲染为图片时,最短边的边长。您可以调高此数值,如 MinSize = 2160 。
MinSize = 2160
改完后保存、重启Umi。
Sorry, something went wrong.
No branches or pull requests
Issues
Umi-OCR version 程序版本
2.1.4
Windows version 系统版本
win11
OCR plugins Used 使用的OCR插件
PaddleOCR
Reproduction steps 复现步骤
识别文档中的“不寐”两字时,截图识别可以很容易的识别出来,而批量文档识别,却识别不出“寐”字,或者错识别出其它文字。
调大“限制图片边长”,也无法解决。 在处理其它文档时也有类似的问题。
请问,我在批量文档识别时,需要注意什么配置吗?或者需要对PDF做什么预处理操作。
Problem screenshots or related files (optional) 问题截图或相关文件(可选)
源文件PDF截图:
配置:
The text was updated successfully, but these errors were encountered: