Ygr avsr #16

yanghaha0908 · 2023-12-18T08:19:01Z

wandb log

ddlBoJack · 2023-12-18T11:13:12Z

src/llama_recipes/pipeline/finetune.py

@@ -103,6 +136,8 @@ def main(**kwargs):
        model.to("cuda")

    dataset_config = generate_dataset_config(train_config, kwargs)
+    logger.info("dataset_config: {}".format(dataset_config))
+    wandb.config.update( {"dataset_config": vars(dataset_config)} )


ddlBoJack · 2023-12-18T11:13:27Z

src/llama_recipes/pipeline/finetune.py

-        [print(f'Key: {k}, Value: {v}') for k, v in results.items()]
+        [logger.info(f'Key: {k}, Value: {v}') for k, v in results.items()]
+
+    wandb.finish()


ddlBoJack · 2023-12-18T11:13:39Z

src/llama_recipes/pipeline/finetune.py


 def main(**kwargs):
    # Update the configuration for the training and sharding process
    train_config, fsdp_config, model_config = TRAIN_CONFIG(), FSDP_CONFIG(), MODEL_CONFIG()
    update_config((train_config, fsdp_config, model_config), **kwargs)

+    # Set wandb
+    wandb_config={"train_config":vars(train_config), "fsdp_config":vars(fsdp_config), "model_config":vars(model_config)}


ddlBoJack · 2023-12-18T11:14:53Z

src/llama_recipes/pipeline/finetune.py


 def main(**kwargs):
    # Update the configuration for the training and sharding process
    train_config, fsdp_config, model_config = TRAIN_CONFIG(), FSDP_CONFIG(), MODEL_CONFIG()
    update_config((train_config, fsdp_config, model_config), **kwargs)

+    # Set wandb
+    wandb_config={"train_config":vars(train_config), "fsdp_config":vars(fsdp_config), "model_config":vars(model_config)}
+    wandb.init(project="project_name",name="exp_name",config=wandb_config) #记录参数


set name and local path

wandb.init(dir="/root/SLAM-LLM/test_wandb/",project="project_name",name="exp_name",config=wandb_config) #

ddlBoJack · 2023-12-18T11:15:58Z

src/llama_recipes/utils/train_utils.py

@@ -95,6 +101,10 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche

                loss = loss / gradient_accumulation_steps
                acc = acc / gradient_accumulation_steps
+
+                if step % train_config.log_interval == 0:
+                    wandb.log({"train_inner/train_inner_loss":loss, "train_inner/train_inner_accuracy":acc})


ddlBoJack · 2023-12-18T11:17:20Z

src/llama_recipes/utils/train_utils.py

@@ -133,19 +143,21 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
        train_loss.append(train_epoch_loss)
        train_acc.append(train_epoch_acc)

+        wandb.log({"train/train_perplexity":train_perplexity, "train/train_epoch_loss":train_epoch_loss, "train/train_epoch_acc":train_epoch_acc})


ddlBoJack · 2023-12-18T11:17:38Z

src/llama_recipes/utils/train_utils.py


-                        save_model_and_optimizer_sharded(model, rank, train_config)
+                        j(model, rank, train_config)


ddlBoJack · 2023-12-18T11:17:51Z

src/llama_recipes/utils/train_utils.py

            val_loss.append(eval_epoch_loss)
            val_prep.append(eval_ppl)
            if rest:
                val_acc.append(rest[0]) 
            else: 
                val_acc.append(-1)
+
+            wandb.log({"valid/val_epoch_loss":eval_epoch_loss, "valid/val_perplexity":eval_ppl, "valid/best_val_loss":best_val_loss, "valid/val_accuracy":val_acc[-1]})


yanghaha0908 added 11 commits November 23, 2023 17:09

first commit

7c9b40a

first commit

1fffd36

commit

ff666f9

save 1 version

d468189

save 1 version

14e4e87

merge

47c78bc

one version log & wandb

9a860d1

add log & wandb

ec5d8c4

pr

c0c3a9b

for pr

ce31230

pr

3e5a335

ddlBoJack reviewed Dec 18, 2023

View reviewed changes

ddlBoJack approved these changes Dec 18, 2023

View reviewed changes

ddlBoJack merged commit 1636dde into main Dec 18, 2023
2 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Ygr avsr #16

Ygr avsr #16

yanghaha0908 commented Dec 18, 2023

ddlBoJack Dec 18, 2023

ddlBoJack Dec 18, 2023

ddlBoJack Dec 18, 2023

ddlBoJack Dec 18, 2023

ddlBoJack Dec 18, 2023

ddlBoJack Dec 18, 2023

ddlBoJack Dec 18, 2023

ddlBoJack Dec 18, 2023

ddlBoJack Dec 18, 2023


		save_model_and_optimizer_sharded(model, rank, train_config)
		j(model, rank, train_config)

Ygr avsr #16

Ygr avsr #16

Conversation

yanghaha0908 commented Dec 18, 2023

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment