Update src/transformers/models/diffllama/modeling_diffllama.py

fix 2times divide by sqrt(self.head_dim) Co-authored-by: Minho Ryu <[email protected]>
huggingface · ArthurZucker · Jan 7, 2025 · Oct 11, 2024 · Oct 11, 2024 · Oct 16, 2024
commit dd167af8c0206c91985946e131c8a95fd6c48c1b
@@ -297,7 +297,6 @@ def __init__(self, config: DiffLlamaConfig, layer_idx: Optional[int] = None):
         self.hidden_size = config.hidden_size
         self.num_heads = config.num_attention_heads
         self.head_dim = getattr(config, "head_dim", self.hidden_size // self.num_heads)
-        self.scaling = self.head_dim ** -0.5
         self.num_key_value_heads = config.num_key_value_heads
         self.num_key_value_groups = self.num_heads // self.num_key_value_heads
         # under this are not used