GitHub - fushengwuyu/chinese_spelling_correction: 中文文本纠错模型，keras实现

这里提供三种文本纠错模型的实现

bert语言模型+字音字形相似度
- correction_basic.py
- 缺点:
  1. 不能解决多字,少字问题
MLM
correction_mlm.py 利用bert的MLM训练机制实现纠错功能
输入: [CLS]错误句子[SEP][MASK][MASK]...[MASK][SEP]
输出: 正确句子
seq2seq
correction_seq2seq.py 使用文本生成的方式生成正确句子
输入: [CLS]错误句子[SEP][MASK][MASK]...[MASK][SEP
输出: 正确句子
缺点：推断速度比较慢

exampe:

wrong: 专家公步虎门大桥涡振原因
right: 专家公布虎门大桥涡振原因

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
data		data
tools		tools
.gitignore		.gitignore
correction_basic.py		correction_basic.py
correction_mlm.py		correction_mlm.py
correction_seq2seq.py		correction_seq2seq.py
readme.md		readme.md

Provide feedback