Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

最終用於實驗測試的數據集(處理后的FB15K,與FB20K) #4

Open
godfanmiao opened this issue Mar 10, 2016 · 7 comments

Comments

@godfanmiao
Copy link

您好,若冰。

拜讀了您的文章,我受益匪淺。

可否與您共享一下經過處理后的FB15K,與FB20K的數據集?

我在論文里沒有找到太具體的處理數據集的方法,特別是選擇多少關鍵詞作為描述,或者去掉了具體哪些entity。

如果可以直接共享一下最終用於測試的數據集,恐怕會有更多的人樂於引用和進一步研究,也包括我:)

@xrb92
Copy link
Owner

xrb92 commented Mar 12, 2016

您好,
FB20k数据下载链接已在README.md中更新。
关于数据处理,主要是description上面的预处理,我们仅做了两个简单的处理,在论文模型预处理部分有介绍:
1、小写化并去除所有停用词;
2、将所有描述中出现的entityname看做word,即William Shakespeare --> william_shakespeare
实验结果显示目前的预处理对于结果影响不大,针对不同模型也可能有更合适的预处理方式,所以我们仅给出了原始描述文件:)

@godfanmiao
Copy link
Author

多谢若冰。没关系,我很快返校,到时候我们见面聊。

Miao Fan *淼)*
Google Scholar
https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V.
https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/

*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)

在 2016年3月11日 下午9:28,Ruobing Xie [email protected]写道:

您好,
FB20k数据下载链接已在README.md中更新。
关于数据处理,主要是description上面的预处理,我们仅做了两个简单的处理,在论文模型预处理部分有介绍:
1、小写化并去除所有停用词;
2、将所有描述中出现的entityname看做word,即William Shakespeare --> william_shakespeare
实验结果显示目前的预处理对于结果影响不大,针对不同模型也可能有更合适的预处理方式,所以我们仅给出了原始描述文件:)


Reply to this email directly or view it on GitHub
#4 (comment).

@godfanmiao
Copy link
Author

其实我更想具体知道您对FB15K过滤了哪些entity,我希望可以得到十分准确的数据集进行比对。

Miao Fan *淼)*
Google Scholar
https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V.
https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/

*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)

在 2016年3月11日 下午9:28,Ruobing Xie [email protected]写道:

您好,
FB20k数据下载链接已在README.md中更新。
关于数据处理,主要是description上面的预处理,我们仅做了两个简单的处理,在论文模型预处理部分有介绍:
1、小写化并去除所有停用词;
2、将所有描述中出现的entityname看做word,即William Shakespeare --> william_shakespeare
实验结果显示目前的预处理对于结果影响不大,针对不同模型也可能有更合适的预处理方式,所以我们仅给出了原始描述文件:)


Reply to this email directly or view it on GitHub
#4 (comment).

@xrb92
Copy link
Owner

xrb92 commented Mar 12, 2016

entity为14,904个,过滤掉的是:
1、没有description的,这个可以对照同时发布的FB15K描述文件确定;
2、预处理后长度过少的,我们去除了长度小于3的entity

@godfanmiao
Copy link
Author

最好是有标准的数据集,
我们自己处理难免会出一些问题。
直接给数据集是再好不过的选择了。

Miao Fan *淼)*
Google Scholar
https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V.
https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/

*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)

在 2016年3月12日 上午11:59,Ruobing Xie [email protected]写道:

entity为14,904个,过滤掉的是:
1、没有description的,这个可以对照同时发布的FB15K描述文件确定;
2、预处理后长度过少的,我们去除了长度小于3的entity


Reply to this email directly or view it on GitHub
#4 (comment).

@xrb92
Copy link
Owner

xrb92 commented Mar 13, 2016

已更新entity list下载链接
包含实验所用的entity列表和其在Freebase中的描述

@fanfannothing
Copy link

@xrb92 有个疑问?为什么在使用CNN时,对每个实体的描述要使用其摘要中的实体name?
理论上,对于一个实体描述,有很多关键信息:比如实体name、一些关键的谓词(关键)、还有一些kv结构等。

这里用实体name,并通过word2vec来计算entity的预向量,是想捕获出实体间的共现关系吗?

麻烦介绍下,谢谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants