Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于twitter数据集的问题 #1

Open
didizhu-zju opened this issue May 1, 2019 · 4 comments
Open

关于twitter数据集的问题 #1

didizhu-zju opened this issue May 1, 2019 · 4 comments

Comments

@didizhu-zju
Copy link

您好,我在MitchellETAL等人在2013 EMNLP发表的那篇论文下载到了twitter数据集,但是发现twitter数据集共有3288个标有Person或Organization的aspect。但是您这篇论文的aspect共有3199个。我看了一下您的数据集,您没有用BIO标记,您是用T代替BIO标记。所以想请问,您论文中aspect比原论文中的aspect总数少是否有一部分原因是标记的问题呢?或者说还有没有其他原因呢?

@lixin4ever
Copy link
Owner

我是在 https://github.com/SUTDNLP/OpenTargetedSentiment (emnlp 2015的一个工作)里面拿的数据,因为他们claim是跟Mitchell那个工作用的一样的数据,所以我就直接沿用了

当然,也有可能是我的预处理脚本没考虑某些边界的情况,导致漏了一些样本,不过comparison应该还是fair的,因为所有baseline都是在这份数据上report的结果

@didizhu-zju
Copy link
Author

好的谢谢,不过还是想请问您为什么没有用BIO而是用T标记呢?

@lixin4ever
Copy link
Owner

我只是预处理的时候以TO来存的处理后的数据,实际上在训练的时候,我们会先把TO的tag sequence转成BIEOS的tag sequence

@didizhu-zju
Copy link
Author

是的,看了代码是有转换的,谢谢解释~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants