As slow->fast token failed due to the different initialization for [M…

…ASK] for slow and fast, Therefore it required to make the initialization for [MASK] token uniform between fast and slow token
huggingface · Nov 28, 2023 · 913c5a1 · 913c5a1
1 parent 53a02c5
commit 913c5a1
Show file tree

Hide file tree

Showing 2 changed files with 4 additions and 4 deletions.
diff --git a/src/transformers/models/rembert/tokenization_rembert.py b/src/transformers/models/rembert/tokenization_rembert.py
@@ -21,7 +21,7 @@
 
 import sentencepiece as spm
 
-from ...tokenization_utils import PreTrainedTokenizer
+from ...tokenization_utils import AddedToken, PreTrainedTokenizer
 from ...utils import logging
 
 
@@ -111,6 +111,9 @@ def __init__(
         mask_token="[MASK]",
         **kwargs,
     ):
+        # Mask token behave like a normal word, i.e. include the space before it
+        mask_token = AddedToken("[MASK]", lstrip=True, rstrip=False, normalized=False)
+
         self.do_lower_case = do_lower_case
         self.remove_space = remove_space
         self.keep_accents = keep_accents

diff --git a/tests/models/rembert/test_tokenization_rembert.py b/tests/models/rembert/test_tokenization_rembert.py
@@ -160,6 +160,3 @@ def test_sequence_builders(self):
         assert encoded_pair == [tokenizer.cls_token_id] + text + [tokenizer.sep_token_id] + text_2 + [
             tokenizer.sep_token_id
         ]
-
-    def test_added_tokens_serialization(self):
-        pass