add model_scratch_enlarge_scale

Signed-off-by: Yu, Zhentao <[email protected]>
intel · VincyZhang · Mar 4, 2024 · Feb 28, 2024 · Feb 29, 2024 · Feb 29, 2024
commit 521875752ebb3d453a78127adde1bd2dd24c283d
diff --git a/neural_speed/models/llama/llama.h b/neural_speed/models/llama/llama.h
@@ -26,18 +26,38 @@ enum llama_model {
   LLAMA_65B,
 };
 
-static const model_scratch llama_mem_req(int n_layers) {
+static const model_scratch llama_mem_req(int n_layers, float enlarge_scale = 1.0f) {
   switch (n_layers) {
     case 32:
-      return {1024ull * MB, 1024ull * MB, 1608ull * MB};
+      return {
+          static_cast<unsigned long long>(enlarge_scale * 1024) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 1024) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 1608) * MB,
+      };
     case 40:
-      return {512ull * MB, 512ull * MB, 1608ull * MB};
+      return {
+          static_cast<unsigned long long>(enlarge_scale * 512) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 512) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 1608) * MB,
+      };
     case 48:
-      return {512ull * MB, 512ull * MB, 2366ull * MB};
+      return {
+          static_cast<unsigned long long>(enlarge_scale * 512) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 512) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 2366) * MB,
+      };
     case 60:
-      return {512ull * MB, 512ull * MB, 3124ull * MB};
+      return {
+          static_cast<unsigned long long>(enlarge_scale * 512) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 512) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 3124) * MB,
+      };
     case 80:
-      return {2048ull * MB, 2048ull * MB, 10240ull * MB};
+      return {
+          static_cast<unsigned long long>(enlarge_scale * 2048) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 2048) * MB,
+          static_cast<unsigned long long>(enlarge_scale * 10240) * MB,
+      };
     default:
       MODEL_ASSERT(false);
   }

diff --git a/neural_speed/models/llama/llama_utils.cpp b/neural_speed/models/llama/llama_utils.cpp
@@ -81,7 +81,7 @@ void Llama::init(const char* path_model, model_context* ctx, int n_gpu_layer_, b
   n_head = hparams.n_head;
   n_expert = hparams.n_experts;
   n_expert_used = hparams.n_experts_used;
-  scratch = llama_mem_req(n_layer);
+  scratch = llama_mem_req(n_layer, lctx.model_scratch_enlarge_scale);
   model.scratchs = scratch;
 }