Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

能否提供下印章识别训练的tricks呢?训练的准确率一直很低。感谢! #37

Open
Inadequate233 opened this issue Jun 19, 2024 · 9 comments

Comments

@Inadequate233
Copy link

No description provided.

@Gmgge
Copy link
Owner

Gmgge commented Jun 20, 2024

一般来说根据数据集的数量,并发数目调整下学习率就可以了,你的准确率很低,可以发下训练日志文件吗?
或者判断下:
1.训练loss在下降,验证精度在提示,但是变化缓慢,那么就可以适当提高学习率
2.已经收敛,但是精度仍然很低,检查下数据集的标注是否正确

@Gmgge
Copy link
Owner

Gmgge commented Jun 21, 2024

我修复了一些参数要手动调整的问题,你可以拉取一下再训练试试。

期待你的反馈。

@Inadequate233
Copy link
Author

我在训练之前添加了一些数据增强的方式,发现第一个epoch的准确率为70%+,后面训练越来越低。明显模型过拟合。感觉还是数据量不够导致的。
另外,基于预训练模型训练的时候更换字符字典会不会导致微调的数据需要更多呢?

@Gmgge
Copy link
Owner

Gmgge commented Jun 27, 2024

在图像相关任务中,字符识别类型的训练通常需要较多的数据,如果数据实在不够,可以搜索下相关的印章生成脚本,一些参考资料可以参考rapidocr收集的链接

@dc6273632
Copy link

在图像相关任务中,字符识别类型的训练通常需要较多的数据,如果数据实在不够,可以搜索下相关的印章生成脚本,一些参考资料可以参考rapidocr收集的链接

理论上来说,如果loss一直下降,最后几乎是0了,但是精度实际是上升的,这个也不算是过拟合吧?

@Gmgge
Copy link
Owner

Gmgge commented Jun 29, 2024

确保你的验证集没在训练集中,该验证集精度处于上升阶段,不能判断是过拟合。

@znsoftm
Copy link

znsoftm commented Nov 18, 2024

在图像相关任务中,字符识别类型的训练通常需要较多的数据,如果数据实在不够,可以搜索下相关的印章生成脚本,一些参考资料可以参考rapidocr收集的链接

可以沟通下不?我这边是rapidOCR团队,微我下:364479, 开门密码:tr-ocr-seal

@Gmgge
Copy link
Owner

Gmgge commented Nov 25, 2024

@znsoftm 我在rapidOCR的QQ一群发了消息哈

@dc6273632
Copy link

@znsoftm 我在rapidOCR的QQ一群发了消息哈

大佬问个问题,使用trocr识别多行文字的话,最大长度设置成所有文字包括分隔符的长度还是单行文字的长度?比如我要识别营业执照的经营范围部分,我把这部分内容使用版面分析模型单独分割出来了,有些内容特别多而且字靠的很近,使用传统的文字检测很难分割出单行文字,不知道用trocr能不能做到直接识别整个部分的内容。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants