Skip to content

Latest commit

 

History

History
36 lines (27 loc) · 1.22 KB

README.md

File metadata and controls

36 lines (27 loc) · 1.22 KB

增量预训练教程

增量预训练简介

增量预训练旨在提升模型在特定领域或任务的能力。

预训练流程

  • Step1 处理数据
  • Step2 配置config(全量、Lora、Qlora)
  • Step3 启动训练(单卡、多卡、是否使用deepspeed)
  • Step4 模型合成
  • Step5 模型测试
  • Step6 模型上传

EmoLLM增量预训练教程

基于微调中的数据集datasets修改而来

  • Step1 修改ft2pt.py中的文件路径 这里以output2.json为例,运行脚本生成pt.json

  • Step2 config 注意:本config采用了变长注意力 (Variable Length Attention) 需要安装flash_attn MAX_JOBS=4 pip install flash-attn --no-build-isolation

  • Step3 训练:

# On a single GPU
xtuner train internlm2_chat_1_8b_qlora_e3_pt.py --deepspeed deepspeed_zero2
# On multiple GPUs
(DIST) NPROC_PER_NODE=${GPU_NUM} xtuner train internlm2_chat_1_8b_qlora_e3_pt.py --deepspeed deepspeed_zero2
(SLURM) srun ${SRUN_ARGS} xtuner train internlm2_chat_1_8b_qlora_e3_pt.py --launcher slurm --deepspeed deepspeed_zero2