diff --git a/docs/source/zh/_toctree.yml b/docs/source/zh/_toctree.yml index 7ebddf0339146e..3c6c0a203c18df 100644 --- a/docs/source/zh/_toctree.yml +++ b/docs/source/zh/_toctree.yml @@ -52,6 +52,8 @@ title: 导出为 TorchScript - local: gguf title: 与 GGUF 格式的互操作性 + - local: tiktoken + title: 与 Tiktoken 文件的互操作性 title: 开发者指南 - sections: - local: performance diff --git a/docs/source/zh/tiktoken.md b/docs/source/zh/tiktoken.md new file mode 100644 index 00000000000000..c8ef6b129eccc0 --- /dev/null +++ b/docs/source/zh/tiktoken.md @@ -0,0 +1,55 @@ + + +# Transformers与Tiktonken的互操作性 + +在🤗 transformers中,当使用`from_pretrained`方法从Hub加载模型时,如果模型包含tiktoken格式的`tokenizer.model`文件,框架可以无缝支持tiktoken模型文件,并自动将其转换为我们的[快速词符化器](https://huggingface.co/docs/transformers/main/en/main_classes/tokenizer#transformers.PreTrainedTokenizerFast)。 + +### 已知包含`tiktoken.model`文件发布的模型: + - gpt2 + - llama3 + +## 使用示例 + +为了在transformers中正确加载`tiktoken`文件,请确保`tiktoken.model`文件是tiktoken格式的,并且会在加载`from_pretrained`时自动加载。以下展示如何从同一个文件中加载词符化器(tokenizer)和模型: + +```py +from transformers import AutoTokenizer + +model_id = "meta-llama/Meta-Llama-3-8B-Instruct" +tokenizer = AutoTokenizer.from_pretrained(model_id, subfolder="original") +``` +## 创建tiktoken词符化器(tokenizer) + +`tokenizer.model`文件中不包含任何额外的词符(token)或模式字符串(pattern strings)的信息。如果这些信息很重要,需要将词符化器(tokenizer)转换为适用于[`PreTrainedTokenizerFast`]类的`tokenizer.json`格式。 + +使用[tiktoken.get_encoding](https://github.com/openai/tiktoken/blob/63527649963def8c759b0f91f2eb69a40934e468/tiktoken/registry.py#L63)生成`tokenizer.model`文件,再使用[`convert_tiktoken_to_fast`]函数将其转换为`tokenizer.json`文件。 + +```py + +from transformers.integrations.tiktoken import convert_tiktoken_to_fast +from tiktoken import get_encoding + +# You can load your custom encoding or the one provided by OpenAI +encoding = get_encoding("gpt2") +convert_tiktoken_to_fast(encoding, "config/save/dir") +``` + +生成的`tokenizer.json`文件将被保存到指定的目录,并且可以通过[`PreTrainedTokenizerFast`]类来加载。 + +```py +tokenizer = PreTrainedTokenizerFast.from_pretrained("config/save/dir") +```