最終用於實驗測試的數據集（處理后的FB15K，與FB20K） #4

godfanmiao · 2016-03-10T03:12:26Z

您好，若冰。

拜讀了您的文章，我受益匪淺。

可否與您共享一下經過處理后的FB15K，與FB20K的數據集？

我在論文里沒有找到太具體的處理數據集的方法，特別是選擇多少關鍵詞作為描述，或者去掉了具體哪些entity。

如果可以直接共享一下最終用於測試的數據集，恐怕會有更多的人樂於引用和進一步研究，也包括我:)

xrb92 · 2016-03-12T02:28:27Z

您好，
FB20k数据下载链接已在README.md中更新。
关于数据处理，主要是description上面的预处理，我们仅做了两个简单的处理，在论文模型预处理部分有介绍：
1、小写化并去除所有停用词；
2、将所有描述中出现的entityname看做word，即William Shakespeare --> william_shakespeare
实验结果显示目前的预处理对于结果影响不大，针对不同模型也可能有更合适的预处理方式，所以我们仅给出了原始描述文件：）

godfanmiao · 2016-03-12T02:33:45Z

多谢若冰。没关系，我很快返校，到时候我们见面聊。

Miao Fan *（范淼）*
Google Scholar
https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V.
https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/

*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)

在 2016年3月11日下午9:28，Ruobing Xie [email protected]写道：

您好，
FB20k数据下载链接已在README.md中更新。
关于数据处理，主要是description上面的预处理，我们仅做了两个简单的处理，在论文模型预处理部分有介绍：
1、小写化并去除所有停用词；
2、将所有描述中出现的entityname看做word，即William Shakespeare --> william_shakespeare
实验结果显示目前的预处理对于结果影响不大，针对不同模型也可能有更合适的预处理方式，所以我们仅给出了原始描述文件：）

—
Reply to this email directly or view it on GitHub
#4 (comment).

godfanmiao · 2016-03-12T16:28:35Z

其实我更想具体知道您对FB15K过滤了哪些entity，我希望可以得到十分准确的数据集进行比对。

Miao Fan *（范淼）*
Google Scholar
https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V.
https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/

*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)

在 2016年3月11日下午9:28，Ruobing Xie [email protected]写道：

您好，
FB20k数据下载链接已在README.md中更新。
关于数据处理，主要是description上面的预处理，我们仅做了两个简单的处理，在论文模型预处理部分有介绍：
1、小写化并去除所有停用词；
2、将所有描述中出现的entityname看做word，即William Shakespeare --> william_shakespeare
实验结果显示目前的预处理对于结果影响不大，针对不同模型也可能有更合适的预处理方式，所以我们仅给出了原始描述文件：）

—
Reply to this email directly or view it on GitHub
#4 (comment).

xrb92 · 2016-03-12T16:59:37Z

entity为14,904个，过滤掉的是：
1、没有description的，这个可以对照同时发布的FB15K描述文件确定；
2、预处理后长度过少的，我们去除了长度小于3的entity

godfanmiao · 2016-03-12T17:14:39Z

最好是有标准的数据集，
我们自己处理难免会出一些问题。
直接给数据集是再好不过的选择了。

Miao Fan *（范淼）*
Google Scholar
https://scholar.google.com/citations?user=aPlHReAAAAAJ&hl=en & C.V.
https://mlnote.wordpress.com/2015/12/17/bloggers-c-v/

*Part Time Junior Research Scientist;*
Department of Computer Science;
Courant Institute of Mathematical Sciences;
*New York University*;
Room 717, 715 Broadway, New York, NY, 10003, U.S.A.
+1-347-891-8622 (U.S.A.)
&
*Ph.D. Candidate;*
Department of Computer Science and Technology;
*Tsinghua University*;
#14 Zijing Apartment, Tsinghua, Beijing, 100084, China.
+86-13581700448 (P.R.C.)

在 2016年3月12日上午11:59，Ruobing Xie [email protected]写道：

entity为14,904个，过滤掉的是：
1、没有description的，这个可以对照同时发布的FB15K描述文件确定；
2、预处理后长度过少的，我们去除了长度小于3的entity

—
Reply to this email directly or view it on GitHub
#4 (comment).

xrb92 · 2016-03-13T02:41:10Z

已更新entity list下载链接
包含实验所用的entity列表和其在Freebase中的描述

fanfannothing · 2018-02-05T07:03:58Z

@xrb92 有个疑问？为什么在使用CNN时，对每个实体的描述要使用其摘要中的实体name？
理论上，对于一个实体描述，有很多关键信息：比如实体name、一些关键的谓词（关键）、还有一些kv结构等。

这里用实体name，并通过word2vec来计算entity的预向量，是想捕获出实体间的共现关系吗？

麻烦介绍下，谢谢

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

最終用於實驗測試的數據集（處理后的FB15K，與FB20K） #4

最終用於實驗測試的數據集（處理后的FB15K，與FB20K） #4

godfanmiao commented Mar 10, 2016

xrb92 commented Mar 12, 2016

godfanmiao commented Mar 12, 2016

godfanmiao commented Mar 12, 2016

xrb92 commented Mar 12, 2016

godfanmiao commented Mar 12, 2016

xrb92 commented Mar 13, 2016

fanfannothing commented Feb 5, 2018

最終用於實驗測試的數據集（處理后的FB15K，與FB20K） #4

最終用於實驗測試的數據集（處理后的FB15K，與FB20K） #4

Comments

godfanmiao commented Mar 10, 2016

xrb92 commented Mar 12, 2016

godfanmiao commented Mar 12, 2016

godfanmiao commented Mar 12, 2016

xrb92 commented Mar 12, 2016

godfanmiao commented Mar 12, 2016

xrb92 commented Mar 13, 2016

fanfannothing commented Feb 5, 2018