请问为什么我使用Lora+Zero2微调qwen2-7B大概占了120G显存，是我哪里设置有问题吗？ #15

xcl1231 · 2024-08-11T10:59:45Z

请问下主页的显存占用测试是在多少长度的length计算出来的？博客里写的DPO微调qwen2其中loss降到了0.05，请问这是训练多少个epoch跑出来的？
一些参数设置如下：
num_train_epochs: int = field(default=10, metadata={"help": "训练轮次"})
per_device_train_batch_size: int = field(default=1, metadata={"help": "训练的batch size"})
gradient_checkpointing: bool = field(default=False, metadata={"help": "是否使用梯度累计"})
max_length: Optional[int] = 1024
max_prompt_length: Optional[int] = 512
max_target_length: Optional[int] = 1024

mst272 · 2024-08-11T15:17:34Z

请贴一下更详细的信息，主页的显存占用测试是SFT的测试，不过DPO也不应该是120G，很奇怪。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问为什么我使用Lora+Zero2微调qwen2-7B大概占了120G显存，是我哪里设置有问题吗？ #15

请问为什么我使用Lora+Zero2微调qwen2-7B大概占了120G显存，是我哪里设置有问题吗？ #15

xcl1231 commented Aug 11, 2024

mst272 commented Aug 11, 2024

请问为什么我使用Lora+Zero2微调qwen2-7B大概占了120G显存，是我哪里设置有问题吗？ #15

请问为什么我使用Lora+Zero2微调qwen2-7B大概占了120G显存，是我哪里设置有问题吗？ #15

Comments

xcl1231 commented Aug 11, 2024

mst272 commented Aug 11, 2024