llama: rwkv6: Add quantization tensor exclusion

Signed-off-by: Molly Sophia <[email protected]>
ggerganov · Aug 13, 2024 · 57269c2 · 57269c2
1 parent 5245608
commit 57269c2
Showing 1 changed file with 3 additions and 0 deletions.
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -16547,6 +16547,9 @@ static void llama_model_quantize_internal(const std::string & fname_inp, const s
         quantize &= name.find("ssm_x.weight")      == std::string::npos;
         quantize &= name.find("ssm_dt.weight")     == std::string::npos;
 
+        // do not quantize RWKV's time_mix_first tensors
+        quantize &= name.find("time_mix_first.weight") == std::string::npos;
+
         // do not quantize relative position bias (T5)
         quantize &= name.find("attn_rel_b.weight") == std::string::npos;