From d6611df951c6913b423d9823d3eb032394d2f16b Mon Sep 17 00:00:00 2001 From: lishuai Date: Thu, 21 Mar 2024 15:26:32 +0800 Subject: [PATCH 1/5] lishuai-97 add 2024.03.09~2024.03.22 WeeklyReport --- .../[WeeklyReports]2024.03.09~2024.03.22.md | 39 +++++++++++++++++++ 1 file changed, 39 insertions(+) create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md new file mode 100644 index 00000000..129ab3d2 --- /dev/null +++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md @@ -0,0 +1,39 @@ +### 姓名 +李帅 + +### 实习项目 +大模型训练稳定性和高效低价小模型快速收敛 + +### 本周工作 + +1. **分布式训练框架学习** + + * 学习Megatron-LM以及Megatron-DeepSpeed的相关论文,了解其分布式训练、显存优化等相关技术原理。 + * 熟悉Megatron-LM以及Megatron-DeepSpeed训练框架代码结构,掌握其优化器、分布式训练、梯度裁剪等相关代码实现。 + + +2. **XXX梯度裁剪算法** + + * XXX梯度裁剪算法global level以及tensor-wise的代码实现,并将其集成到Megatron-LM中。 + * 在开源模型以及公开数据集上对XXX梯度裁剪算法的tensor-wise以及gloabl level策略进行了初步的实验验证。 + + +3. **大模型训练稳定性探索** + + * 阅读了大模型训练稳定性相关论文,从优化器、模型结构、尺度大小等角度对大模型训练的不稳定性进行调研。 + * 基于Megatron-LM对345M参数量的开源模型GPT-2进行训练,在小规模上数据集上复现了loss spike现象。 + * 基于Megatron-LM在345M参数量的开源模型GPT-2对竞品提出的优化策略进行了初步复现,观察其所提出策略的效果。 + + +4. **问题疑惑与解答** 无 + + +### 下周工作 + +1. 进一步完善在小规模开源模型上对竞品策略的复现,与我们的方法进行对齐,比较策略效果优劣。 +2. 继续完善XXX梯度裁剪算法的实验验证,针对结果进行全面分析和总结。 +3. 继续阅读梯度裁剪、大模型稳定性训练以及优化器的相关论文,为我们的优化算法提供理论支持。 + + +### 导师点评 +李帅本周的工作完成度80%,已经完成既定目标。在进度上,需要尽快复现出竞品的结果,基于竞品结果对比,分析我们的算法优劣。在策略开发中,需要时刻check策略的预期和实际的结果是否符合,尽早排除风险。 \ No newline at end of file From 21965a32f0c0d960fd8003dcb447ea90a100569d Mon Sep 17 00:00:00 2001 From: ShuaiLi <87744419+lishuai-97@users.noreply.github.com> Date: Thu, 21 Mar 2024 20:09:33 +0800 Subject: [PATCH 2/5] Update [WeeklyReports]2024.03.09~2024.03.22.md --- .../24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md | 1 - 1 file changed, 1 deletion(-) diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md index 129ab3d2..559c3030 100644 --- a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md +++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md @@ -36,4 +36,3 @@ ### 导师点评 -李帅本周的工作完成度80%,已经完成既定目标。在进度上,需要尽快复现出竞品的结果,基于竞品结果对比,分析我们的算法优劣。在策略开发中,需要时刻check策略的预期和实际的结果是否符合,尽早排除风险。 \ No newline at end of file From f71df05a2c206c8c569be703d2d446311e12e8ca Mon Sep 17 00:00:00 2001 From: lishuai Date: Sun, 7 Apr 2024 18:36:19 +0800 Subject: [PATCH 3/5] lishuai-97 add 2024.03.22~2024.04.05 WeeklyReport --- .../[WeeklyReports]2024.03.22~2024.04.05.md | 39 +++++++++++++++++++ 1 file changed, 39 insertions(+) create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.22~2024.04.05.md diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.22~2024.04.05.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.22~2024.04.05.md new file mode 100644 index 00000000..271f5f0e --- /dev/null +++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.22~2024.04.05.md @@ -0,0 +1,39 @@ +### 姓名 +李帅 + +### 实习项目 +大模型训练稳定性和高效低价小模型快速收敛 + +### 本周工作 + +1. **开源模型框架学习** + + * 学习LLaMA、LLaMA-2、DiT、CLIP论文,了解其网络结构、训练策略以及优化器等相关技术原理。 + * 熟悉Megatron-LLaMA、Open-CLIP以及Large-DiT训练框架代码结构,掌握其优化器、分布式训练、梯度裁剪等相关代码实现。 + + +2. **XXX梯度裁剪算法** + + * 基于Megatron-LM框架的GPT-2 345M模型上C4-en数据集的XXX梯度裁剪算法tensor-wise实验以及baseline实验,验证了XXX梯度裁剪算法的有效性,并进行了超参的搜索调整实验。 + * XXX梯度裁剪算法tensor-wise的代码在Megatron-LLaMA框架的实现,并在小规模数据集上对LLaMA-245M、LLaMA-1.2B规模的loss spike进行了复现。 + * 基于初始化方法的竞品算法在Megatron-LLaMA框架的实现以及基于AdamW优化器方法的竞品在Open-CLIP上的实现。 + + +3. **大模型训练稳定性探索** + + * 阅读了从初始化以及网络结构角度进行大模型稳定性训练相关论文,拓展了相关工作内容。 + * VLM、MLLM两大类预训练任务中出现loss spike模型的调研,并对其解决方案的相关论文进行了阅读学习。 + + +4. **问题疑惑与解答** 无 + + +### 下周工作 + +1. LLaMA-13B模型fine-tune实验中出现loss spike情况的调研,并对其进行复现实验,验证XXX梯度裁剪算法在LLM的fine-tune任务中的有效性。 +2. LLaMA-7B模型的XXX梯度裁剪算法实验以及VLM、MLLM两大类预训练任务中出现loss spike的baseline实验。 +3. XXX梯度裁剪算法在VLM、MLLM两大类预训练任务中的实验验证,对比不同任务的效果。 +4. 继续阅读梯度裁剪、大模型稳定性训练以及优化器的相关论文,为我们的优化算法提供理论支持,并开始着手构建论文框架。 + + +### 导师点评 From 44c9dda088d6839ea9de28a7d2f5e7e5ef240a10 Mon Sep 17 00:00:00 2001 From: lishuai Date: Sun, 21 Apr 2024 21:41:42 +0800 Subject: [PATCH 4/5] lishuai-97 add 2024.04.06~2024.04.19 WeeklyReport --- .../[WeeklyReports]2024.04.06~2024.04.19.md | 31 +++++++++++++++++++ 1 file changed, 31 insertions(+) create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.06~2024.04.19.md diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.06~2024.04.19.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.06~2024.04.19.md new file mode 100644 index 00000000..88e2c32e --- /dev/null +++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.06~2024.04.19.md @@ -0,0 +1,31 @@ +### 姓名 +李帅 + +### 实习项目 +大模型训练稳定性和高效低价小模型快速收敛 + +### 本周工作 + +1. **开源模型框架学习与开发** + + * Megatron-LLaMA训练框架的DP、MP、PP以及Distributed Optimizer相关代码的学习。 + * 基于Megatron-LLaMA、Open-CLIP框架的各种竞品策略及其优化器的复现以及相关数据集的支持。 + + +2. **XXX梯度裁剪算法** + + * 基于Megatron-LM和Megatron-LLaMA框架完成了GPT-2、LLaAM模型在C4-en数据集上的部分实验,验证了我们算法的有效性,及其与竞品策略的对比 + * 基于Open-CLIP框架完成了CLIP模型在LAION-400M数据集上的XXX梯度裁剪算法部分实验。 + * 梯度/更新裁剪相关文献的阅读学习。 + + +3. **问题疑惑与解答** 无 + + +### 下周工作 + +1. 继续完善并补全我们的XXX梯度裁剪算法在开源模型的各种实验,对比不同任务的效果。 +2. 继续阅读梯度/更新裁剪、大模型稳定性训练以及优化器的相关论文,并开始着手构建论文框架、撰写论文。 + + +### 导师点评 From 4aee96b5480d051ff0c54a3059a09ded4ed41c25 Mon Sep 17 00:00:00 2001 From: lishuai Date: Sun, 12 May 2024 14:07:38 +0800 Subject: [PATCH 5/5] lishuai-97 add 2024.04.19~2024.05.10 WeeklyReport --- .../[WeeklyReports]2024.04.19~2024.05.10.md | 22 +++++++++++++++++++ 1 file changed, 22 insertions(+) create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.19~2024.05.10.md diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.19~2024.05.10.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.19~2024.05.10.md new file mode 100644 index 00000000..1119bada --- /dev/null +++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.19~2024.05.10.md @@ -0,0 +1,22 @@ +### 姓名 +李帅 + +### 实习项目 +大模型训练稳定性和高效低价小模型快速收敛 + +### 本周工作 + +1. **XXX梯度裁剪算法** + + * 完善并补全了XXX梯度裁剪算法在开源模型的各种实验 + * 完成XXX梯度裁剪算法论文框架的构建,撰写了论文的初稿 + +2. **问题疑惑与解答** 无 + + +### 下周工作 + +1. 继续完善、润色XXX梯度裁剪算法的论文,准备投稿 + + +### 导师点评