Skip to content

Commit

Permalink
[i18n-ar] Translated file : docs/source/ar/fast_tokenizers.md into …
Browse files Browse the repository at this point in the history
…Arabic (huggingface#33034)

* Add docs/source/ar/fast_tokenizers.md to Add_docs_source_ar_fast_tokenizers.md

* Update _toctree.yml

* Update _toctree.yml

* Update docs/source/ar/_toctree.yml

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

* Update docs/source/ar/fast_tokenizers.md

Co-authored-by: Abdullah Mohammed <[email protected]>

---------

Co-authored-by: Abdullah Mohammed <[email protected]>
  • Loading branch information
2 people authored and BernardZach committed Dec 5, 2024
1 parent 080472b commit d85ac41
Show file tree
Hide file tree
Showing 2 changed files with 55 additions and 4 deletions.
8 changes: 4 additions & 4 deletions docs/source/ar/_toctree.yml
Original file line number Diff line number Diff line change
Expand Up @@ -108,9 +108,9 @@
# title: دليل إرشادي لمحفزات النماذج اللغوية الكبيرة
# title: الإرشاد
# title: أدلة المهام
# - sections:
# - local: fast_tokenizers
# title: استخدم برامج التجزئة السريعة من 🤗 Tokenizers
- sections:
- local: fast_tokenizers
title: استخدم مجزئيات النصوص السريعة من 🤗 Tokenizers
# - local: multilingual
# title: تشغيل الاستنتاج باستخدام نماذج متعددة اللغات
# - local: create_a_model
Expand Down Expand Up @@ -139,7 +139,7 @@
# title: استكشاف الأخطاء وإصلاحها
# - local: gguf
# title: التوافق مع ملفات GGUF
# title: أدلة المطورين
title: أدلة المطورين
# - sections:
# - local: quantization/overview
# title: نظرة عامة
Expand Down
51 changes: 51 additions & 0 deletions docs/source/ar/fast_tokenizers.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,51 @@
# استخدام مجزئيات النصوص من 🤗 Tokenizers

يعتمد [`PreTrainedTokenizerFast`] على مكتبة [🤗 Tokenizers](https://huggingface.co/docs/tokenizers). يمكن تحميل المجزئات اللغويين الذين تم الحصول عليهم من مكتبة 🤗 Tokenizers ببساطة شديدة في 🤗 Transformers.

قبل الدخول في التفاصيل، دعونا نبدأ أولاً بإنشاء مُجزىء لغوي تجريبي في بضع سطور:

```python
>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace

>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)
```

الآن لدينا مُجزىء لغوي مدرب على الملفات التي حددناها. يمكننا إما الاستمرار في استخدامه في وقت التشغيل هذا، أو حفظه في ملف JSON لإعادة استخدامه لاحقًا.

## تحميل مُجزئ النّصوص مُباشرةً

دعونا نرى كيف يمكننا الاستفادة من كائن (مُجزئ النصوص) في مكتبة 🤗 Transformers. تسمح فئة [`PreTrainedTokenizerFast`] سهولة إنشاء *tokenizer*، من خلال قبول كائن *المُجزئ النصوص* مُهيّأ مُسبقًا كمعامل:

```python
>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
```

يمكن الآن استخدام هذا الكائن مع جميع الطرق المُشتركة بين مُجزّئي النّصوص لـ 🤗 Transformers! انتقل إلى [صفحة مُجزّئ النّصوص](main_classes/tokenizer) لمزيد من المعلومات.

## التحميل من ملف JSON

لتحميل مُجزّئ النص من ملف JSON، دعونا نبدأ أولاً بحفظ مُجزّئ النّصوص:

```python
>>> tokenizer.save("tokenizer.json")
```

يمكن تمرير المسار الذي حفظنا به هذا الملف إلى طريقة تهيئة [`PreTrainedTokenizerFast`] باستخدام المُعامل `tokenizer_file`:

```python
>>> from transformers import PreTrainedTokenizerFast

>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
```

يمكن الآن استخدام هذا الكائن مع جميع الطرق التي تشترك فيها مُجزّئي النّصوص لـ 🤗 Transformers! انتقل إلى [صفحة مُجزّئ النص](main_classes/tokenizer) لمزيد من المعلومات.

0 comments on commit d85ac41

Please sign in to comment.