欢迎参加 NLCC 2024 共享任务 2 名词复合链提取项目。该项目包含训练、验证和测试模型以从给定数据集中提取名词复合链所需的文件和说明。
.
├── data
│ └── nlpcc_data
│ ├── train.json
│ ├── valid.json
│ └── test.json
│ └── submit
│ └── save
├── inference.py
├── main.py
├── README.md
└── requirements.txt
data/
: 包含数据集的目录。nlpcc_data/
: 包含训练、验证和测试 JSON 文件的子目录。save/
: 包含模型权重的子目录。submit/
: 包含预测 JSON 文件的子目录。
src
: 包含模型代码的目录。inference.py
: 加载最佳模型并对测试集进行预测的脚本。main.py
: 训练模型并在验证集上获得最佳模型的脚本。README.md
: 本文件。requirements.txt
: 包含所需 Python 包的文件。
train.json
: 包含带有语料和标签的训练数据。valid.json
: 包含带有语料和标签的验证数据。test.json
: 包含文档 ID 和语料但没有标签的测试数据。
-
将仓库克隆到本地计算机。
-
导航到项目目录。
-
使用以下命令安装所需的包:
pip install -r requirements.txt
要训练模型并在验证集上获得最佳模型,请运行以下命令:
python main.py
最佳模型将保存在 data/save/
目录下。
要加载最佳模型并对测试集进行预测,请运行以下命令:
python inference.py --chk best_12.pth.tar
请将best_12.pth.tar
替换为您的最佳模型文件名。
预测结果将保存在 data/submit/submit.jsonl
文件中。
获得预测结果后,将submit.jsonl
压缩为zip格式后,上传到比赛平台以获得分数。
每支队伍在比赛期间最多有5次提交机会。
本项目根据 Apache License 2.0 许可发布。有关详细信息,请参阅 LICENSE 文件。
如有任何问题或需要帮助,可以联系我们。
祝你在比赛中取得好成绩!