Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据预处理部分有几个地方不太明白 #3

Open
brealisty opened this issue Feb 19, 2021 · 1 comment
Open

数据预处理部分有几个地方不太明白 #3

brealisty opened this issue Feb 19, 2021 · 1 comment

Comments

@brealisty
Copy link

1、不需要分词,直接每个字符间用空格隔开,开头结尾加?(因为你的“我 喜欢 吃 苹 果”,“喜欢”没空格,所以有点懵;另外看了你推荐的另外一个句子通顺的项目,其中的数据一些数字没有空格,比如年份‘2018’一类的)
2、unk用于oov字,那就是说需要一个字典,但是从训练的的命令还是代码中都没看到有字典相关的部分。

@TITC
Copy link

TITC commented Nov 26, 2021

  1. kenlm读入文件是分好词的文件,你按字分词
我 喜 欢 吃 苹 果

还是按词库分词(如果词库中有苹果

我 喜欢 吃 苹 果

按字分,按词分都是可以的。
个人觉得:
按字分粒度细,召回率高,但占空间,而且ngram覆盖到的窗口范围内的字会比较少。
按词粒度分,召回率低,但省空间。(比如一句话五个字,分为1个词,那只需要统计一次)


  1. 这里的oov中的v是指训练后的xx.arpa文件
    image

也可以说就是对语料统计后的ngram文件

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants