增量预训练旨在提升模型在特定领域或任务的能力。
- Step1 处理数据
- Step2 配置config(全量、Lora、Qlora)
- Step3 启动训练(单卡、多卡、是否使用deepspeed)
- Step4 模型合成
- Step5 模型测试
- Step6 模型上传
基于微调中的数据集datasets修改而来
-
Step1 修改
ft2pt.py
中的文件路径 这里以output2.json为例,运行脚本生成pt.json -
Step2 config 注意:本config采用了变长注意力 (Variable Length Attention) 需要安装flash_attn
MAX_JOBS=4 pip install flash-attn --no-build-isolation
-
Step3 训练:
# On a single GPU
xtuner train internlm2_chat_1_8b_qlora_e3_pt.py --deepspeed deepspeed_zero2
# On multiple GPUs
(DIST) NPROC_PER_NODE=${GPU_NUM} xtuner train internlm2_chat_1_8b_qlora_e3_pt.py --deepspeed deepspeed_zero2
(SLURM) srun ${SRUN_ARGS} xtuner train internlm2_chat_1_8b_qlora_e3_pt.py --launcher slurm --deepspeed deepspeed_zero2
- 其余流程请参考微调教程