-
Notifications
You must be signed in to change notification settings - Fork 344
问答数据
Hain Wang edited this page Aug 12, 2017
·
1 revision
import insuranceqa_data as insuranceqa
train_data = insuranceqa.load_pool_train() # 训练集
test_data = insuranceqa.load_pool_test() # 测试集
valid_data = insuranceqa.load_pool_valid() # 验证集
# valid_data, test_data and train_data share the same properties
for x in train_data: # 打印数据
print('index %s value: %s ++$++ %s ++$++ %s' % \
(x, d[x]['zh'], d[x]['en'], d[x]['answers'], d[x]['negatives']))
answers_data = insuranceqa.load_pool_answers()
for x in answers_data: # 答案数据
print('index %s: %s ++$++ %s' % (x, d[x]['zh'], d[x]['en']))
- | 问题 | 答案 | 词汇(英语) |
---|---|---|---|
训练 | 12,889 | 21,325 | 107,889 |
验证 | 2,000 | 3354 | 16,931 |
测试 | 2,000 | 3308 | 16,815 |
每条数据包括问题的中文,英文,答案的正例,答案的负例。案的正例至少1项,基本上在1-5条,都是正确答案。答案的负例有200条,负例根据问题使用检索的方式建立,所以和问题是相关的,但却不是正确答案。
{
"INDEX": {
"zh": "中文",
"en": "英文",
"domain": "保险种类",
"answers": [""] # 答案正例列表
"negatives": [""] # 答案负例列表
},
more ...
}
-
训练:
corpus/pool/train.json.gz
-
验证:
corpus/pool/valid.json.gz
-
测试:
corpus/pool/test.json.gz
-
答案:
corpus/pool/answers.json
一共有 27,413 个回答,数据格式为json
:
{
"INDEX": {
"zh": "中文",
"en": "英文"
},
more ...
}
格式 INDEX ++$++ 保险种类 ++$++ 中文 ++$++ 英文
corpus/pool/train.txt.gz
, corpus/pool/valid.txt.gz
, corpus/pool/test.txt.gz
.
格式 INDEX ++$++ 中文 ++$++ 英文
corpus/pool/answers.txt.gz
语料库使用gzip进行压缩以减小体积,可以使用zmore, zless, zcat, zgrep等命令访问数据。
zmore pool/test.txt.gz