Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Request for instruction finetuning datasets #16

Open
Wilboludriver opened this issue Jul 3, 2024 · 3 comments
Open

Request for instruction finetuning datasets #16

Wilboludriver opened this issue Jul 3, 2024 · 3 comments

Comments

@Wilboludriver
Copy link

Wilboludriver commented Jul 3, 2024

作者您好,

祝贺你们的工作被Findings of ACL 2024接受!

这篇工作的数据集准备部分给了我很大启发,我在自己合成instruction ft datasets的时候发现有部分步骤不太完整:

  1. 在2.1 Graph Caption Generation 部分的 group (1) Wikipedia + Wikidata5M 中,我加载的是了wiki5m官网发布的corpus,该文件的数据数量比jupyter notebook上的记录要少1/5,导致在构造子图和三元组的部分跑不出来,而完整的wikipedia最新corpus数据量过大不便操作。请问能否开源你们使用的Wikipedia corpus呢?
  2. 在2.2 Graph Question Answering的FreeBase预加载中,我没有在freebase下载网页上找到你们使用的“rel2id.pickle","entity_name.pickle","ent2id.pickle"。 请问方便开源或者告知获取方法吗。
  3. 在 3.1 Knowledge Graph Generation的InstructIE部分,请问train.json 需要额外处理吗,我直接load后发现没有“input”这个key,导致text = example["input"]报错。
  4. 请问您方便开源用gpt合成的第四部分graph thought modelin的数据集吗?

非常感谢你们的贡献,祝学术工作顺利~

Wilbolu

@wjn1996
Copy link
Owner

wjn1996 commented Jul 4, 2024

感谢。

  1. wikipedia的数据量很大,建议采用提供的链接的数据。本人获取wikipedia和wikidata5M按照如下流程:
Wikipedia Dumps:
- 统一使用200301,Wikipedia Dumps页面:https://dumps.wikimedia.org/enwiki/20220301/
- 下载到本地后,使用wikiextractor:https://github.com/attardi/wikiextractor;
执行python -m wikiextractor.WikiExtractor <Wikipedia dump file>
- 下载Wikidata5M:https://deepgraphlearning.github.io/project/wikidata5m
  1. freebase:这里freebase使用项目组已有的数据,不过获取途径暂时没有公开,后面再告知,部分数据集提供了处理过的freebase,可直接使用(详见脚本)
  2. InstructIE需要预处理;
  3. graph thought modeling的合成数据可以详见脚本graph_preference_data.ipynb。

InstructGraph的指令微调数据暂时受到保护,因此目前可能只能开源一部分数据,不过数据构建的脚本全部开源,全量数据建议暂时独立构造。
感谢您的支持

@wjn1996
Copy link
Owner

wjn1996 commented Aug 3, 2024

Hello, we release the sft data, and you can download from https://huggingface.co/datasets/wjn1996/InstructGraph.

@Wilboludriver
Copy link
Author

Hello, we release the sft data, and you can download from https://huggingface.co/datasets/wjn1996/InstructGraph.

Thank you so much for your kind open-sourced datasets.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants