[Wav2Vec2] Fix tokenizer set lang #26349

sanchit-gandhi · 2023-09-22T15:14:28Z

What does this PR do?

The PR #23909 removed unique_no_split_tokens as an attribute of the Wav2Vec2 tokenizer, however it is required to set the language in the method .set_target_lang:

transformers/src/transformers/models/wav2vec2/tokenization_wav2vec2.py

Line 237 in dcbfd93

self.unique_no_split_tokens.append(token)

Thus, calling .set_target_lang currently throws an error:

from transformers import Wav2Vec2CTCTokenizer

tokenizer = Wav2Vec2CTCTokenizer.from_pretrained("facebook/mms-1b-all")
tokenizer.set_target_lang("spa")

Output:

Traceback (most recent call last):
  File "/Users/sanchitgandhi/transformers/debug_tokenizer.py", line 4, in <module>
    tokenizer.set_target_lang("spa")
  File "/Users/sanchitgandhi/transformers/src/transformers/models/wav2vec2/tokenization_wav2vec2.py", line 237, in set_target_lang
    self.unique_no_split_tokens.append(token)
AttributeError: 'Wav2Vec2CTCTokenizer' object has no attribute 'unique_no_split_tokens'

This PR re-instates unique_no_split_tokens as an attribute of the tokenizer. Note that this should already be tested for in the following test:

transformers/tests/models/wav2vec2/test_tokenization_wav2vec2.py

Line 798 in dcbfd93

tokenizer.set_target_lang("spa")

HuggingFaceDocBuilderDev · 2023-09-22T15:36:59Z

The documentation is not available anymore as the PR was closed or merged.

andergisomon · 2023-09-23T16:09:35Z

My space suddenly had a runtime error because of this.

sanchit-gandhi · 2023-09-25T16:28:36Z

Sorry to hear that @andergisomon - note that running transformers on the latest PyPi version should bypass this error. It's only on main at the moment:

pip uninstall transformers -y
pip install --upgrade transformers

ArthurZucker

Thanks, I'd rather remove the addition of these tokens to unique_no_split_tokens as they won't be used.( #26322 was on it's way)

The issue is that adding them to self.unique_no_split_tokens just does nothing. A fix that would keep the previous behaviour is to rather do self.add_tokens(self.encoder.keys()). It's a bit inefficient but will make sure they are not split!

sanchit-gandhi · 2023-09-27T17:16:35Z

Thanks for the review! Applied the suggestions from your comment - look good to you?

ArthurZucker

Let's simplify a bit and good to go

ArthurZucker · 2023-09-29T06:49:35Z

src/transformers/models/wav2vec2/tokenization_wav2vec2.py

        for token in self.encoder.keys():
            if len(token) > 1:
-                self.unique_no_split_tokens.append(token)
+                self.add_tokens(token)


add_tokens loops over the tokens, so I'd recommend adding them using:

Suggested change

for token in self.encoder.keys():

if len(token) > 1:

self.unique_no_split_tokens.append(token)

self.add_tokens(token)

self.add_tokens(self.encoder.keys())

as an internal checks makes sure let(token)>1

But we need lstrip=rstrip=True here, so need to use AddedToken(lstrip=True, rstrip=True) as we had before. If that's ok with you, I'll merge

src/transformers/models/wav2vec2/tokenization_wav2vec2.py

ArthurZucker

Fine with me!

* fix wav2vec2 doctest * suggestion * fix * final fix * revert since we need AddedTokens

sanchit-gandhi requested a review from ArthurZucker September 22, 2023 15:15

andergisomon mentioned this pull request Sep 23, 2023

Error running inference using HuggingFace spaces: AttributeError: 'Wav2Vec2CTCTokenizer' object has no attribute 'unique_no_split_tokens' facebookresearch/fairseq#5334

Closed

ArthurZucker reviewed Sep 26, 2023

View reviewed changes

sanchit-gandhi requested a review from ArthurZucker September 28, 2023 18:34

ArthurZucker approved these changes Sep 29, 2023

View reviewed changes

sanchit-gandhi added 5 commits September 29, 2023 16:52

fix wav2vec2 doctest

e66d24a

suggestion

067a457

fix

65e8149

final fix

c91e20e

revert since we need AddedTokens

7d62f6e

sanchit-gandhi force-pushed the wav2vec2-doctest branch from dbbdf3f to 7d62f6e Compare September 29, 2023 15:59

ArthurZucker approved these changes Oct 3, 2023

View reviewed changes

Merge branch 'main' into wav2vec2-doctest

c6d3e26

sanchit-gandhi merged commit 2d8ee98 into huggingface:main Oct 4, 2023
3 checks passed

sanchit-gandhi deleted the wav2vec2-doctest branch October 4, 2023 16:34

blbadger pushed a commit to blbadger/transformers that referenced this pull request Nov 8, 2023

[Wav2Vec2] Fix tokenizer set lang (huggingface#26349)

f47af74

* fix wav2vec2 doctest * suggestion * fix * final fix * revert since we need AddedTokens

EduardoPach pushed a commit to EduardoPach/transformers that referenced this pull request Nov 18, 2023

[Wav2Vec2] Fix tokenizer set lang (huggingface#26349)

19487aa

* fix wav2vec2 doctest * suggestion * fix * final fix * revert since we need AddedTokens

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Wav2Vec2] Fix tokenizer set lang #26349

[Wav2Vec2] Fix tokenizer set lang #26349

sanchit-gandhi commented Sep 22, 2023

HuggingFaceDocBuilderDev commented Sep 22, 2023 •

edited

Loading

andergisomon commented Sep 23, 2023

sanchit-gandhi commented Sep 25, 2023

ArthurZucker left a comment

sanchit-gandhi commented Sep 27, 2023

ArthurZucker left a comment

ArthurZucker Sep 29, 2023

sanchit-gandhi Sep 29, 2023 •

edited

Loading

ArthurZucker left a comment

[Wav2Vec2] Fix tokenizer set lang #26349

[Wav2Vec2] Fix tokenizer set lang #26349

Conversation

sanchit-gandhi commented Sep 22, 2023

What does this PR do?

HuggingFaceDocBuilderDev commented Sep 22, 2023 • edited Loading

andergisomon commented Sep 23, 2023

sanchit-gandhi commented Sep 25, 2023

ArthurZucker left a comment

Choose a reason for hiding this comment

sanchit-gandhi commented Sep 27, 2023

ArthurZucker left a comment

Choose a reason for hiding this comment

ArthurZucker Sep 29, 2023

Choose a reason for hiding this comment

sanchit-gandhi Sep 29, 2023 • edited Loading

Choose a reason for hiding this comment

ArthurZucker left a comment

Choose a reason for hiding this comment

HuggingFaceDocBuilderDev commented Sep 22, 2023 •

edited

Loading

sanchit-gandhi Sep 29, 2023 •

edited

Loading