Update sentencepiece IO test

- Switch to tiny testing model to reduce memory usage - Use slow tokenizer to test sentencepiece requirement - Add sentencepiece extra to dev requirements
explosion · Oct 11, 2023 · 2bf4a9b · 2bf4a9b
1 parent f0b475d
commit 2bf4a9b
Show file tree

Hide file tree

Showing 2 changed files with 3 additions and 2 deletions.
diff --git a/requirements.txt b/requirements.txt
@@ -1,6 +1,6 @@
 spacy>=3.5.0,<4.0.0
 numpy>=1.15.0
-transformers>=3.4.0,<4.35.0
+transformers[sentencepiece]>=3.4.0,<4.35.0
 torch>=1.8.0
 srsly>=2.4.0,<3.0.0
 dataclasses>=0.6,<1.0; python_version < "3.7"

diff --git a/spacy_transformers/tests/test_pipeline_component.py b/spacy_transformers/tests/test_pipeline_component.py
@@ -238,7 +238,8 @@ def test_transformer_pipeline_tagger_senter_listener():
 def test_transformer_sentencepiece_IO():
     """Test that a transformer using sentencepiece trains + IO goes OK"""
     orig_config = Config().from_str(cfg_string)
-    orig_config["components"]["transformer"]["model"]["name"] = "camembert-base"
+    orig_config["components"]["transformer"]["model"]["name"] = "hf-internal-testing/tiny-xlm-roberta"
+    orig_config["components"]["transformer"]["model"]["tokenizer_config"] = {"use_fast": False}
     nlp = util.load_model_from_config(orig_config, auto_fill=True, validate=True)
     tagger = nlp.get_pipe("tagger")
     tagger_trf = tagger.model.get_ref("tok2vec").layers[0]