We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
1、不需要分词,直接每个字符间用空格隔开,开头结尾加?(因为你的“我 喜欢 吃 苹 果”,“喜欢”没空格,所以有点懵;另外看了你推荐的另外一个句子通顺的项目,其中的数据一些数字没有空格,比如年份‘2018’一类的) 2、unk用于oov字,那就是说需要一个字典,但是从训练的的命令还是代码中都没看到有字典相关的部分。
The text was updated successfully, but these errors were encountered:
我 喜 欢 吃 苹 果
还是按词库分词(如果词库中有苹果
苹果
我 喜欢 吃 苹 果
按字分,按词分都是可以的。 个人觉得: 按字分粒度细,召回率高,但占空间,而且ngram覆盖到的窗口范围内的字会比较少。 按词粒度分,召回率低,但省空间。(比如一句话五个字,分为1个词,那只需要统计一次)
v
xx.arpa
也可以说就是对语料统计后的ngram文件
Sorry, something went wrong.
No branches or pull requests
1、不需要分词,直接每个字符间用空格隔开,开头结尾加
?(因为你的“我 喜欢 吃 苹 果”,“喜欢”没空格,所以有点懵;另外看了你推荐的另外一个句子通顺的项目,其中的数据一些数字没有空格,比如年份‘2018’一类的)2、unk用于oov字,那就是说需要一个字典,但是从训练的的命令还是代码中都没看到有字典相关的部分。
The text was updated successfully, but these errors were encountered: