We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
您好,我在MitchellETAL等人在2013 EMNLP发表的那篇论文下载到了twitter数据集,但是发现twitter数据集共有3288个标有Person或Organization的aspect。但是您这篇论文的aspect共有3199个。我看了一下您的数据集,您没有用BIO标记,您是用T代替BIO标记。所以想请问,您论文中aspect比原论文中的aspect总数少是否有一部分原因是标记的问题呢?或者说还有没有其他原因呢?
The text was updated successfully, but these errors were encountered:
我是在 https://github.com/SUTDNLP/OpenTargetedSentiment (emnlp 2015的一个工作)里面拿的数据,因为他们claim是跟Mitchell那个工作用的一样的数据,所以我就直接沿用了
当然,也有可能是我的预处理脚本没考虑某些边界的情况,导致漏了一些样本,不过comparison应该还是fair的,因为所有baseline都是在这份数据上report的结果
Sorry, something went wrong.
好的谢谢,不过还是想请问您为什么没有用BIO而是用T标记呢?
我只是预处理的时候以TO来存的处理后的数据,实际上在训练的时候,我们会先把TO的tag sequence转成BIEOS的tag sequence
是的,看了代码是有转换的,谢谢解释~
No branches or pull requests
您好,我在MitchellETAL等人在2013 EMNLP发表的那篇论文下载到了twitter数据集,但是发现twitter数据集共有3288个标有Person或Organization的aspect。但是您这篇论文的aspect共有3199个。我看了一下您的数据集,您没有用BIO标记,您是用T代替BIO标记。所以想请问,您论文中aspect比原论文中的aspect总数少是否有一部分原因是标记的问题呢?或者说还有没有其他原因呢?
The text was updated successfully, but these errors were encountered: