mosaicml · eldarkurtic · Aug 27, 2024 · Aug 28, 2024 · Aug 28, 2024 · Nov 13, 2024
@@ -500,7 +500,12 @@ def tensor_hook(
 
         if dist.get_global_rank() == 0:
             log.debug('Saving Hugging Face checkpoint in global rank 0')
-
+
+            if hasattr(original_model.config, 'use_cache'):
+                original_model.config.use_cache = True
+            if hasattr(original_model.generation_config, 'use_cache'):
+                original_model.generation_config.use_cache = True
+
             # Transform HF config before building 2nd model copy
             new_config = self.transform_config(
                 original_config=original_model.config,