截图识别比PDF文档识别效果好 #713

jqwangai · 2024-11-05T02:00:06Z

2.1.4

win11

PaddleOCR

识别文档中的“不寐”两字时，截图识别可以很容易的识别出来，而批量文档识别，却识别不出“寐”字，或者错识别出其它文字。

调大“限制图片边长”，也无法解决。在处理其它文档时也有类似的问题。

请问，我在批量文档识别时，需要注意什么配置吗？或者需要对PDF做什么预处理操作。

源文件PDF截图：

配置：

hiroi-sora · 2024-11-11T03:40:59Z

你已经选择为 整页强制OCR ，这样程序会用类似截图的原理获取页面图像来识别。你可以修改参数提高DPI来增加图片精度：

用记事本打开 Umi-OCR\UmiOCR-data\py_src\mission\mission_doc.py ，前面第19行有个：

MinSize = 1080  # 最小渲染分辨率

它表示将PDF渲染为图片时，最短边的边长。您可以调高此数值，如 MinSize = 2160 。

改完后保存、重启Umi。

Provide feedback