From d6611df951c6913b423d9823d3eb032394d2f16b Mon Sep 17 00:00:00 2001
From: lishuai <lishuai_math@163.com>
Date: Thu, 21 Mar 2024 15:26:32 +0800
Subject: [PATCH 1/5] lishuai-97 add 2024.03.09~2024.03.22 WeeklyReport

---
 .../[WeeklyReports]2024.03.09~2024.03.22.md   | 39 +++++++++++++++++++
 1 file changed, 39 insertions(+)
 create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md

diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md
new file mode 100644
index 00000000..129ab3d2
--- /dev/null
+++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md
@@ -0,0 +1,39 @@
+### 姓名
+李帅
+
+### 实习项目
+大模型训练稳定性和高效低价小模型快速收敛
+
+### 本周工作
+
+1. **分布式训练框架学习**
+
+    * 学习Megatron-LM以及Megatron-DeepSpeed的相关论文，了解其分布式训练、显存优化等相关技术原理。
+    * 熟悉Megatron-LM以及Megatron-DeepSpeed训练框架代码结构，掌握其优化器、分布式训练、梯度裁剪等相关代码实现。
+
+
+2. **XXX梯度裁剪算法**
+
+	* XXX梯度裁剪算法global level以及tensor-wise的代码实现，并将其集成到Megatron-LM中。
+	* 在开源模型以及公开数据集上对XXX梯度裁剪算法的tensor-wise以及gloabl level策略进行了初步的实验验证。
+
+
+3. **大模型训练稳定性探索**
+
+	* 阅读了大模型训练稳定性相关论文，从优化器、模型结构、尺度大小等角度对大模型训练的不稳定性进行调研。
+	* 基于Megatron-LM对345M参数量的开源模型GPT-2进行训练，在小规模上数据集上复现了loss spike现象。
+	* 基于Megatron-LM在345M参数量的开源模型GPT-2对竞品提出的优化策略进行了初步复现，观察其所提出策略的效果。
+
+
+4. **问题疑惑与解答** 无
+
+
+### 下周工作
+
+1. 进一步完善在小规模开源模型上对竞品策略的复现，与我们的方法进行对齐，比较策略效果优劣。
+2. 继续完善XXX梯度裁剪算法的实验验证，针对结果进行全面分析和总结。
+3. 继续阅读梯度裁剪、大模型稳定性训练以及优化器的相关论文，为我们的优化算法提供理论支持。
+
+
+### 导师点评
+李帅本周的工作完成度80%，已经完成既定目标。在进度上，需要尽快复现出竞品的结果，基于竞品结果对比，分析我们的算法优劣。在策略开发中，需要时刻check策略的预期和实际的结果是否符合，尽早排除风险。 
\ No newline at end of file

From 21965a32f0c0d960fd8003dcb447ea90a100569d Mon Sep 17 00:00:00 2001
From: ShuaiLi <87744419+lishuai-97@users.noreply.github.com>
Date: Thu, 21 Mar 2024 20:09:33 +0800
Subject: [PATCH 2/5] Update [WeeklyReports]2024.03.09~2024.03.22.md

---
 .../24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md        | 1 -
 1 file changed, 1 deletion(-)

diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md
index 129ab3d2..559c3030 100644
--- a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md
+++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.09~2024.03.22.md
@@ -36,4 +36,3 @@
 
 
 ### 导师点评
-李帅本周的工作完成度80%，已经完成既定目标。在进度上，需要尽快复现出竞品的结果，基于竞品结果对比，分析我们的算法优劣。在策略开发中，需要时刻check策略的预期和实际的结果是否符合，尽早排除风险。 
\ No newline at end of file

From f71df05a2c206c8c569be703d2d446311e12e8ca Mon Sep 17 00:00:00 2001
From: lishuai <lishuai_math@163.com>
Date: Sun, 7 Apr 2024 18:36:19 +0800
Subject: [PATCH 3/5] lishuai-97 add 2024.03.22~2024.04.05 WeeklyReport

---
 .../[WeeklyReports]2024.03.22~2024.04.05.md   | 39 +++++++++++++++++++
 1 file changed, 39 insertions(+)
 create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.22~2024.04.05.md

diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.22~2024.04.05.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.22~2024.04.05.md
new file mode 100644
index 00000000..271f5f0e
--- /dev/null
+++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.03.22~2024.04.05.md
@@ -0,0 +1,39 @@
+### 姓名
+李帅
+
+### 实习项目
+大模型训练稳定性和高效低价小模型快速收敛
+
+### 本周工作
+
+1. **开源模型框架学习**
+
+    * 学习LLaMA、LLaMA-2、DiT、CLIP论文，了解其网络结构、训练策略以及优化器等相关技术原理。
+    * 熟悉Megatron-LLaMA、Open-CLIP以及Large-DiT训练框架代码结构，掌握其优化器、分布式训练、梯度裁剪等相关代码实现。
+
+
+2. **XXX梯度裁剪算法**
+
+	* 基于Megatron-LM框架的GPT-2 345M模型上C4-en数据集的XXX梯度裁剪算法tensor-wise实验以及baseline实验，验证了XXX梯度裁剪算法的有效性，并进行了超参的搜索调整实验。
+	* XXX梯度裁剪算法tensor-wise的代码在Megatron-LLaMA框架的实现，并在小规模数据集上对LLaMA-245M、LLaMA-1.2B规模的loss spike进行了复现。
+	* 基于初始化方法的竞品算法在Megatron-LLaMA框架的实现以及基于AdamW优化器方法的竞品在Open-CLIP上的实现。
+
+
+3. **大模型训练稳定性探索**
+
+	* 阅读了从初始化以及网络结构角度进行大模型稳定性训练相关论文，拓展了相关工作内容。
+	* VLM、MLLM两大类预训练任务中出现loss spike模型的调研，并对其解决方案的相关论文进行了阅读学习。
+
+
+4. **问题疑惑与解答** 无
+
+
+### 下周工作
+
+1. LLaMA-13B模型fine-tune实验中出现loss spike情况的调研，并对其进行复现实验，验证XXX梯度裁剪算法在LLM的fine-tune任务中的有效性。
+2. LLaMA-7B模型的XXX梯度裁剪算法实验以及VLM、MLLM两大类预训练任务中出现loss spike的baseline实验。
+3. XXX梯度裁剪算法在VLM、MLLM两大类预训练任务中的实验验证，对比不同任务的效果。
+4. 继续阅读梯度裁剪、大模型稳定性训练以及优化器的相关论文，为我们的优化算法提供理论支持，并开始着手构建论文框架。
+
+
+### 导师点评

From 44c9dda088d6839ea9de28a7d2f5e7e5ef240a10 Mon Sep 17 00:00:00 2001
From: lishuai <lishuai_math@163.com>
Date: Sun, 21 Apr 2024 21:41:42 +0800
Subject: [PATCH 4/5] lishuai-97 add 2024.04.06~2024.04.19 WeeklyReport

---
 .../[WeeklyReports]2024.04.06~2024.04.19.md   | 31 +++++++++++++++++++
 1 file changed, 31 insertions(+)
 create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.06~2024.04.19.md

diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.06~2024.04.19.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.06~2024.04.19.md
new file mode 100644
index 00000000..88e2c32e
--- /dev/null
+++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.06~2024.04.19.md
@@ -0,0 +1,31 @@
+### 姓名
+李帅
+
+### 实习项目
+大模型训练稳定性和高效低价小模型快速收敛
+
+### 本周工作
+
+1. **开源模型框架学习与开发**
+
+    * Megatron-LLaMA训练框架的DP、MP、PP以及Distributed Optimizer相关代码的学习。
+    * 基于Megatron-LLaMA、Open-CLIP框架的各种竞品策略及其优化器的复现以及相关数据集的支持。
+
+
+2. **XXX梯度裁剪算法**
+
+	* 基于Megatron-LM和Megatron-LLaMA框架完成了GPT-2、LLaAM模型在C4-en数据集上的部分实验，验证了我们算法的有效性，及其与竞品策略的对比
+	* 基于Open-CLIP框架完成了CLIP模型在LAION-400M数据集上的XXX梯度裁剪算法部分实验。
+	* 梯度/更新裁剪相关文献的阅读学习。
+
+
+3. **问题疑惑与解答** 无
+
+
+### 下周工作
+
+1. 继续完善并补全我们的XXX梯度裁剪算法在开源模型的各种实验，对比不同任务的效果。
+2. 继续阅读梯度/更新裁剪、大模型稳定性训练以及优化器的相关论文，并开始着手构建论文框架、撰写论文。
+
+
+### 导师点评

From 4aee96b5480d051ff0c54a3059a09ded4ed41c25 Mon Sep 17 00:00:00 2001
From: lishuai <lishuai_math@163.com>
Date: Sun, 12 May 2024 14:07:38 +0800
Subject: [PATCH 5/5] lishuai-97 add 2024.04.19~2024.05.10 WeeklyReport

---
 .../[WeeklyReports]2024.04.19~2024.05.10.md   | 22 +++++++++++++++++++
 1 file changed, 22 insertions(+)
 create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.19~2024.05.10.md

diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.19~2024.05.10.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.19~2024.05.10.md
new file mode 100644
index 00000000..1119bada
--- /dev/null
+++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.04.19~2024.05.10.md
@@ -0,0 +1,22 @@
+### 姓名
+李帅
+
+### 实习项目
+大模型训练稳定性和高效低价小模型快速收敛
+
+### 本周工作
+
+1. **XXX梯度裁剪算法**
+
+	* 完善并补全了XXX梯度裁剪算法在开源模型的各种实验
+	* 完成XXX梯度裁剪算法论文框架的构建，撰写了论文的初稿
+
+2. **问题疑惑与解答** 无
+
+
+### 下周工作
+
+1. 继续完善、润色XXX梯度裁剪算法的论文，准备投稿
+
+
+### 导师点评