Created by Yimi81
本项目旨在从0到1构建一个小参数量的中文大模型,在实践的过程中学习预训练/SFT数据处理,模型架构,tokenizer, 参数设置,分布式训练与监控,对齐,推理部署等LLM核心知识。
git clone https://github.com/Yimi81/Yi-mini-LLM.git
cd Yi-mini-LLM
conda create -n mini-llm python=3.10 -y
conda activate mini-llm
pip install -r requirements.txt
pip install deepspeed
pip install flash-attn --no-build-isolation
# 以天工开源的预训练数据集为例,太大了所以下载一部分
mkdir data; cd data; mkdir skypile; cd skypile
git lfs install
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/Skywork/SkyPile-150B
cd SkyPile-150B/data
git lfs pull --include "2023*.jsonl"
bash scripts/pretrain.sh
bash scripts/sft.sh
python inference.py --model "your-pretrain-model-path"