From 713ee2f7079b66c98d62f6798f5b5061834858d6 Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Wed, 6 Dec 2023 15:26:19 -0800 Subject: [PATCH 01/11] Add pad_truncation to es/_toctree.yml --- docs/source/es/_toctree.yml | 2 ++ 1 file changed, 2 insertions(+) diff --git a/docs/source/es/_toctree.yml b/docs/source/es/_toctree.yml index 63d9469e2a048b..0b939ad4113a04 100644 --- a/docs/source/es/_toctree.yml +++ b/docs/source/es/_toctree.yml @@ -75,6 +75,8 @@ - sections: - local: philosophy title: Filosofía + - local: pad_truncation + title: Relleno y truncamiento - local: bertology title: BERTología - local: perplexity From add618e82853aae67b4b8a0fdc9fcef5b83f0877 Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Wed, 6 Dec 2023 15:28:12 -0800 Subject: [PATCH 02/11] Add pad_truncation.md to es/ --- docs/source/es/pad_truncation.md | 71 ++++++++++++++++++++++++++++++++ 1 file changed, 71 insertions(+) create mode 100644 docs/source/es/pad_truncation.md diff --git a/docs/source/es/pad_truncation.md b/docs/source/es/pad_truncation.md new file mode 100644 index 00000000000000..8094dc1bc2aac2 --- /dev/null +++ b/docs/source/es/pad_truncation.md @@ -0,0 +1,71 @@ + + +# Padding and truncation + +Batched inputs are often different lengths, so they can't be converted to fixed-size tensors. Padding and truncation are strategies for dealing with this problem, to create rectangular tensors from batches of varying lengths. Padding adds a special **padding token** to ensure shorter sequences will have the same length as either the longest sequence in a batch or the maximum length accepted by the model. Truncation works in the other direction by truncating long sequences. + +In most cases, padding your batch to the length of the longest sequence and truncating to the maximum length a model can accept works pretty well. However, the API supports more strategies if you need them. The three arguments you need to are: `padding`, `truncation` and `max_length`. + +The `padding` argument controls padding. It can be a boolean or a string: + + - `True` or `'longest'`: pad to the longest sequence in the batch (no padding is applied if you only provide + a single sequence). + - `'max_length'`: pad to a length specified by the `max_length` argument or the maximum length accepted + by the model if no `max_length` is provided (`max_length=None`). Padding will still be applied if you only provide a single sequence. + - `False` or `'do_not_pad'`: no padding is applied. This is the default behavior. + +The `truncation` argument controls truncation. It can be a boolean or a string: + + - `True` or `'longest_first'`: truncate to a maximum length specified by the `max_length` argument or + the maximum length accepted by the model if no `max_length` is provided (`max_length=None`). This will + truncate token by token, removing a token from the longest sequence in the pair until the proper length is + reached. + - `'only_second'`: truncate to a maximum length specified by the `max_length` argument or the maximum + length accepted by the model if no `max_length` is provided (`max_length=None`). This will only truncate + the second sentence of a pair if a pair of sequences (or a batch of pairs of sequences) is provided. + - `'only_first'`: truncate to a maximum length specified by the `max_length` argument or the maximum + length accepted by the model if no `max_length` is provided (`max_length=None`). This will only truncate + the first sentence of a pair if a pair of sequences (or a batch of pairs of sequences) is provided. + - `False` or `'do_not_truncate'`: no truncation is applied. This is the default behavior. + +The `max_length` argument controls the length of the padding and truncation. It can be an integer or `None`, in which case it will default to the maximum length the model can accept. If the model has no specific maximum input length, truncation or padding to `max_length` is deactivated. + +The following table summarizes the recommended way to setup padding and truncation. If you use pairs of input sequences in any of the following examples, you can replace `truncation=True` by a `STRATEGY` selected in +`['only_first', 'only_second', 'longest_first']`, i.e. `truncation='only_second'` or `truncation='longest_first'` to control how both sequences in the pair are truncated as detailed before. + +| Truncation | Padding | Instruction | +|--------------------------------------|-----------------------------------|---------------------------------------------------------------------------------------------| +| no truncation | no padding | `tokenizer(batch_sentences)` | +| | padding to max sequence in batch | `tokenizer(batch_sentences, padding=True)` or | +| | | `tokenizer(batch_sentences, padding='longest')` | +| | padding to max model input length | `tokenizer(batch_sentences, padding='max_length')` | +| | padding to specific length | `tokenizer(batch_sentences, padding='max_length', max_length=42)` | +| | padding to a multiple of a value | `tokenizer(batch_sentences, padding=True, pad_to_multiple_of=8) | +| truncation to max model input length | no padding | `tokenizer(batch_sentences, truncation=True)` or | +| | | `tokenizer(batch_sentences, truncation=STRATEGY)` | +| | padding to max sequence in batch | `tokenizer(batch_sentences, padding=True, truncation=True)` or | +| | | `tokenizer(batch_sentences, padding=True, truncation=STRATEGY)` | +| | padding to max model input length | `tokenizer(batch_sentences, padding='max_length', truncation=True)` or | +| | | `tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY)` | +| | padding to specific length | Not possible | +| truncation to specific length | no padding | `tokenizer(batch_sentences, truncation=True, max_length=42)` or | +| | | `tokenizer(batch_sentences, truncation=STRATEGY, max_length=42)` | +| | padding to max sequence in batch | `tokenizer(batch_sentences, padding=True, truncation=True, max_length=42)` or | +| | | `tokenizer(batch_sentences, padding=True, truncation=STRATEGY, max_length=42)` | +| | padding to max model input length | Not possible | +| | padding to specific length | `tokenizer(batch_sentences, padding='max_length', truncation=True, max_length=42)` or | +| | | `tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY, max_length=42)` | From a92f05f277c6015a433affc572f5edfee4d314c8 Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Wed, 6 Dec 2023 15:55:17 -0800 Subject: [PATCH 03/11] Translated first two paragraph --- docs/source/es/pad_truncation.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/docs/source/es/pad_truncation.md b/docs/source/es/pad_truncation.md index 8094dc1bc2aac2..77a112109e7b54 100644 --- a/docs/source/es/pad_truncation.md +++ b/docs/source/es/pad_truncation.md @@ -14,11 +14,11 @@ rendered properly in your Markdown viewer. --> -# Padding and truncation +# Relleno y truncamiento -Batched inputs are often different lengths, so they can't be converted to fixed-size tensors. Padding and truncation are strategies for dealing with this problem, to create rectangular tensors from batches of varying lengths. Padding adds a special **padding token** to ensure shorter sequences will have the same length as either the longest sequence in a batch or the maximum length accepted by the model. Truncation works in the other direction by truncating long sequences. +Las entradas agrupadas por lotes (batched) suelen tener longitudes diferentes, por lo que no se pueden convertir en tensores de tamaño fijo. El relleno (también conocido como "Padding") y el truncamiento (conocido como "Truncation") son estrategias para abordar este problema y crear tensores rectangulares a partir de lotes de longitudes variables. El Padding agrega un **padding token** especial para garantizar que las secuencias más cortas tengan la misma longitud que la secuencia más larga en un lote o la longitud máxima aceptada por el modelo. Truncation funciona en la otra dirección al truncar secuencias largas. -In most cases, padding your batch to the length of the longest sequence and truncating to the maximum length a model can accept works pretty well. However, the API supports more strategies if you need them. The three arguments you need to are: `padding`, `truncation` and `max_length`. +En la mayoría de los casos, es bastante eficaz rellenar su lote hasta la longitud de la secuencia más larga y truncar hasta la longitud máxima que un modelo puede aceptar. Sin embargo, la API admite más estrategias si las necesitas. Los tres argumentos que necesitas son: `padding`, `truncation` y `max_length`. The `padding` argument controls padding. It can be a boolean or a string: From 2032507625a9f4fd3d69e3b0236b5e6fe67f7d63 Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Wed, 6 Dec 2023 16:04:31 -0800 Subject: [PATCH 04/11] Translated paddig argument section --- docs/source/es/pad_truncation.md | 11 +++++------ 1 file changed, 5 insertions(+), 6 deletions(-) diff --git a/docs/source/es/pad_truncation.md b/docs/source/es/pad_truncation.md index 77a112109e7b54..19cdbb4c98965b 100644 --- a/docs/source/es/pad_truncation.md +++ b/docs/source/es/pad_truncation.md @@ -20,13 +20,12 @@ Las entradas agrupadas por lotes (batched) suelen tener longitudes diferentes, p En la mayoría de los casos, es bastante eficaz rellenar su lote hasta la longitud de la secuencia más larga y truncar hasta la longitud máxima que un modelo puede aceptar. Sin embargo, la API admite más estrategias si las necesitas. Los tres argumentos que necesitas son: `padding`, `truncation` y `max_length`. -The `padding` argument controls padding. It can be a boolean or a string: +El argumento `padding` controla el relleno. Puede ser un booleano o una cadena: - - `True` or `'longest'`: pad to the longest sequence in the batch (no padding is applied if you only provide - a single sequence). - - `'max_length'`: pad to a length specified by the `max_length` argument or the maximum length accepted - by the model if no `max_length` is provided (`max_length=None`). Padding will still be applied if you only provide a single sequence. - - `False` or `'do_not_pad'`: no padding is applied. This is the default behavior. + - `True` o `'longest'`: rellena hasta la longitud de la secuencia más larga en el lote (no se aplica relleno si solo proporcionas una única secuencia). + - `'max_length'`: rellena hasta una longitud especificada por el argumento `max_length` o la longitud máxima aceptada + por el modelo si no se proporciona `max_length` (`max_length=None`). El Padding se aplicará incluso si solo proporcionas una única secuencia. + - `False` o `'do_not_pad'`: no se aplica relleno. Este es el comportamiento predeterminado. The `truncation` argument controls truncation. It can be a boolean or a string: From 5ebf8ebba6fd5830645dd0b5e440785b831d8391 Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Wed, 6 Dec 2023 16:11:44 -0800 Subject: [PATCH 05/11] Translated truncation argument section --- docs/source/es/pad_truncation.md | 23 +++++++++++------------ 1 file changed, 11 insertions(+), 12 deletions(-) diff --git a/docs/source/es/pad_truncation.md b/docs/source/es/pad_truncation.md index 19cdbb4c98965b..71f4106210ae1a 100644 --- a/docs/source/es/pad_truncation.md +++ b/docs/source/es/pad_truncation.md @@ -27,19 +27,18 @@ El argumento `padding` controla el relleno. Puede ser un booleano o una cadena: por el modelo si no se proporciona `max_length` (`max_length=None`). El Padding se aplicará incluso si solo proporcionas una única secuencia. - `False` o `'do_not_pad'`: no se aplica relleno. Este es el comportamiento predeterminado. -The `truncation` argument controls truncation. It can be a boolean or a string: +El argumento `truncation` controla el truncamiento. Puede ser un booleano o una cadena: - - `True` or `'longest_first'`: truncate to a maximum length specified by the `max_length` argument or - the maximum length accepted by the model if no `max_length` is provided (`max_length=None`). This will - truncate token by token, removing a token from the longest sequence in the pair until the proper length is - reached. - - `'only_second'`: truncate to a maximum length specified by the `max_length` argument or the maximum - length accepted by the model if no `max_length` is provided (`max_length=None`). This will only truncate - the second sentence of a pair if a pair of sequences (or a batch of pairs of sequences) is provided. - - `'only_first'`: truncate to a maximum length specified by the `max_length` argument or the maximum - length accepted by the model if no `max_length` is provided (`max_length=None`). This will only truncate - the first sentence of a pair if a pair of sequences (or a batch of pairs of sequences) is provided. - - `False` or `'do_not_truncate'`: no truncation is applied. This is the default behavior. + - `True` o `'longest_first'`: trunca hasta una longitud máxima especificada por el argumento `max_length` o + la longitud máxima aceptada por el modelo si no se proporciona `max_length` (`max_length=None`). Esto + truncará token por token, eliminando un token de la secuencia más larga en el par hasta alcanzar la longitud adecuada. + - `'only_second'`: trunca hasta una longitud máxima especificada por el argumento `max_length` o la longitud máxima + aceptada por el modelo si no se proporciona `max_length` (`max_length=None`). Esto solo truncará + la segunda oración de un par si se proporciona un par de secuencias (o un lote de pares de secuencias). + - `'only_first'`: trunca hasta una longitud máxima especificada por el argumento `max_length` o la longitud máxima + aceptada por el modelo si no se proporciona `max_length` (`max_length=None`). Esto solo truncará + la primera oración de un par si se proporciona un par de secuencias (o un lote de pares de secuencias). + - `False` o `'do_not_truncate'`: no se aplica truncamiento. Este es el comportamiento predeterminado. The `max_length` argument controls the length of the padding and truncation. It can be an integer or `None`, in which case it will default to the maximum length the model can accept. If the model has no specific maximum input length, truncation or padding to `max_length` is deactivated. From 6efaae3d6dd2e5db38d0efcec7845f68b9d9e599 Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Wed, 6 Dec 2023 16:21:02 -0800 Subject: [PATCH 06/11] Translated final paragraphs --- docs/source/es/pad_truncation.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/docs/source/es/pad_truncation.md b/docs/source/es/pad_truncation.md index 71f4106210ae1a..a8cefaf6d9191f 100644 --- a/docs/source/es/pad_truncation.md +++ b/docs/source/es/pad_truncation.md @@ -40,10 +40,10 @@ El argumento `truncation` controla el truncamiento. Puede ser un booleano o una la primera oración de un par si se proporciona un par de secuencias (o un lote de pares de secuencias). - `False` o `'do_not_truncate'`: no se aplica truncamiento. Este es el comportamiento predeterminado. -The `max_length` argument controls the length of the padding and truncation. It can be an integer or `None`, in which case it will default to the maximum length the model can accept. If the model has no specific maximum input length, truncation or padding to `max_length` is deactivated. +El argumento `max_length` controla la longitud del Padding y el Truncation. Puede ser un número entero o `None`, en cuyo caso se establecerá automáticamente en la longitud máxima que el modelo puede aceptar. Si el modelo no tiene una longitud máxima de entrada específica, se desactiva el Truncation o el Padding hasta `max_length`. -The following table summarizes the recommended way to setup padding and truncation. If you use pairs of input sequences in any of the following examples, you can replace `truncation=True` by a `STRATEGY` selected in -`['only_first', 'only_second', 'longest_first']`, i.e. `truncation='only_second'` or `truncation='longest_first'` to control how both sequences in the pair are truncated as detailed before. +La siguiente tabla resume la forma recomendada de configurar el Padding y el Truncation. Si usas pares de secuencias de entrada en alguno de los siguientes ejemplos, puedes reemplazar `truncation=True` por una `ESTRATEGIA` seleccionada en +`['only_first', 'only_second', 'longest_first']`, es decir, `truncation='only_second'` o `truncation='longest_first'` para controlar cómo se truncan ambas secuencias en el par, como se detalló anteriormente. | Truncation | Padding | Instruction | |--------------------------------------|-----------------------------------|---------------------------------------------------------------------------------------------| From 64b9fd797fe62c85335b1b583556ab02b9869522 Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Wed, 6 Dec 2023 16:29:26 -0800 Subject: [PATCH 07/11] Translated table --- docs/source/es/pad_truncation.md | 44 ++++++++++++++++---------------- 1 file changed, 22 insertions(+), 22 deletions(-) diff --git a/docs/source/es/pad_truncation.md b/docs/source/es/pad_truncation.md index a8cefaf6d9191f..5ed89dd55573b3 100644 --- a/docs/source/es/pad_truncation.md +++ b/docs/source/es/pad_truncation.md @@ -45,25 +45,25 @@ El argumento `max_length` controla la longitud del Padding y el Truncation. Pued La siguiente tabla resume la forma recomendada de configurar el Padding y el Truncation. Si usas pares de secuencias de entrada en alguno de los siguientes ejemplos, puedes reemplazar `truncation=True` por una `ESTRATEGIA` seleccionada en `['only_first', 'only_second', 'longest_first']`, es decir, `truncation='only_second'` o `truncation='longest_first'` para controlar cómo se truncan ambas secuencias en el par, como se detalló anteriormente. -| Truncation | Padding | Instruction | -|--------------------------------------|-----------------------------------|---------------------------------------------------------------------------------------------| -| no truncation | no padding | `tokenizer(batch_sentences)` | -| | padding to max sequence in batch | `tokenizer(batch_sentences, padding=True)` or | -| | | `tokenizer(batch_sentences, padding='longest')` | -| | padding to max model input length | `tokenizer(batch_sentences, padding='max_length')` | -| | padding to specific length | `tokenizer(batch_sentences, padding='max_length', max_length=42)` | -| | padding to a multiple of a value | `tokenizer(batch_sentences, padding=True, pad_to_multiple_of=8) | -| truncation to max model input length | no padding | `tokenizer(batch_sentences, truncation=True)` or | -| | | `tokenizer(batch_sentences, truncation=STRATEGY)` | -| | padding to max sequence in batch | `tokenizer(batch_sentences, padding=True, truncation=True)` or | -| | | `tokenizer(batch_sentences, padding=True, truncation=STRATEGY)` | -| | padding to max model input length | `tokenizer(batch_sentences, padding='max_length', truncation=True)` or | -| | | `tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY)` | -| | padding to specific length | Not possible | -| truncation to specific length | no padding | `tokenizer(batch_sentences, truncation=True, max_length=42)` or | -| | | `tokenizer(batch_sentences, truncation=STRATEGY, max_length=42)` | -| | padding to max sequence in batch | `tokenizer(batch_sentences, padding=True, truncation=True, max_length=42)` or | -| | | `tokenizer(batch_sentences, padding=True, truncation=STRATEGY, max_length=42)` | -| | padding to max model input length | Not possible | -| | padding to specific length | `tokenizer(batch_sentences, padding='max_length', truncation=True, max_length=42)` or | -| | | `tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY, max_length=42)` | +| Truncation | Padding | Instrucción | +|-----------------------------------------|--------------------------------------|---------------------------------------------------------------------------------------------| +| sin truncamiento | sin relleno | `tokenizer(batch_sentences)` | +| | relleno hasta la longitud máxima del lote | `tokenizer(batch_sentences, padding=True)` o | +| | | `tokenizer(batch_sentences, padding='longest')` | +| | relleno hasta la longitud máxima del modelo | `tokenizer(batch_sentences, padding='max_length')` | +| | relleno hasta una longitud específica | `tokenizer(batch_sentences, padding='max_length', max_length=42)` | +| | relleno hasta un múltiplo de un valor | `tokenizer(batch_sentences, padding=True, pad_to_multiple_of=8)` | +| truncamiento hasta la longitud máxima del modelo | sin relleno | `tokenizer(batch_sentences, truncation=True)` o | +| | | `tokenizer(batch_sentences, truncation=ESTRATEGIA)` | +| | relleno hasta la longitud máxima del lote | `tokenizer(batch_sentences, padding=True, truncation=True)` o | +| | | `tokenizer(batch_sentences, padding=True, truncation=ESTRATEGIA)` | +| | relleno hasta la longitud máxima del modelo | `tokenizer(batch_sentences, padding='max_length', truncation=True)` o | +| | | `tokenizer(batch_sentences, padding='max_length', truncation=ESTRATEGIA)` | +| | relleno hasta una longitud específica | No es posible | +| truncamiento hasta una longitud específica | sin relleno | `tokenizer(batch_sentences, truncation=True, max_length=42)` o | +| | | `tokenizer(batch_sentences, truncation=ESTRATEGIA, max_length=42)` | +| | relleno hasta la longitud máxima del lote | `tokenizer(batch_sentences, padding=True, truncation=True, max_length=42)` o | +| | | `tokenizer(batch_sentences, padding=True, truncation=ESTRATEGIA, max_length=42)` | +| | relleno hasta la longitud máxima del modelo | No es posible | +| | relleno hasta una longitud específica | `tokenizer(batch_sentences, padding='max_length', truncation=True, max_length=42)` o | +| | | `tokenizer(batch_sentences, padding='max_length', truncation=ESTRATEGIA, max_length=42)` | From 44ff107d9ba0a9d49aab403440fc4e31ed1f6bdc Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Wed, 6 Dec 2023 16:33:23 -0800 Subject: [PATCH 08/11] Fixed typo in the table of en/pad_truncation.md --- docs/source/en/pad_truncation.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/en/pad_truncation.md b/docs/source/en/pad_truncation.md index 8094dc1bc2aac2..cc623bca48a402 100644 --- a/docs/source/en/pad_truncation.md +++ b/docs/source/en/pad_truncation.md @@ -54,7 +54,7 @@ The following table summarizes the recommended way to setup padding and truncati | | | `tokenizer(batch_sentences, padding='longest')` | | | padding to max model input length | `tokenizer(batch_sentences, padding='max_length')` | | | padding to specific length | `tokenizer(batch_sentences, padding='max_length', max_length=42)` | -| | padding to a multiple of a value | `tokenizer(batch_sentences, padding=True, pad_to_multiple_of=8) | +| | padding to a multiple of a value | `tokenizer(batch_sentences, padding=True, pad_to_multiple_of=8)` | | truncation to max model input length | no padding | `tokenizer(batch_sentences, truncation=True)` or | | | | `tokenizer(batch_sentences, truncation=STRATEGY)` | | | padding to max sequence in batch | `tokenizer(batch_sentences, padding=True, truncation=True)` or | From 396a9da28bb3fe0d1a614cc8b5ddae2511ca69ea Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Thu, 7 Dec 2023 08:45:15 -0800 Subject: [PATCH 09/11] Run make style | Fix a word --- docs/source/es/pad_truncation.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/es/pad_truncation.md b/docs/source/es/pad_truncation.md index 5ed89dd55573b3..9d092447caf8a5 100644 --- a/docs/source/es/pad_truncation.md +++ b/docs/source/es/pad_truncation.md @@ -18,7 +18,7 @@ rendered properly in your Markdown viewer. Las entradas agrupadas por lotes (batched) suelen tener longitudes diferentes, por lo que no se pueden convertir en tensores de tamaño fijo. El relleno (también conocido como "Padding") y el truncamiento (conocido como "Truncation") son estrategias para abordar este problema y crear tensores rectangulares a partir de lotes de longitudes variables. El Padding agrega un **padding token** especial para garantizar que las secuencias más cortas tengan la misma longitud que la secuencia más larga en un lote o la longitud máxima aceptada por el modelo. Truncation funciona en la otra dirección al truncar secuencias largas. -En la mayoría de los casos, es bastante eficaz rellenar su lote hasta la longitud de la secuencia más larga y truncar hasta la longitud máxima que un modelo puede aceptar. Sin embargo, la API admite más estrategias si las necesitas. Los tres argumentos que necesitas son: `padding`, `truncation` y `max_length`. +En la mayoría de los casos, es bastante eficaz rellenar el lote hasta la longitud de la secuencia más larga y truncar hasta la longitud máxima que un modelo puede aceptar. Sin embargo, la API admite más estrategias si las necesitas. Los tres argumentos que necesitas son: `padding`, `truncation` y `max_length`. El argumento `padding` controla el relleno. Puede ser un booleano o una cadena: From f3b7a48dc39087729a63616b7eff4060aaf2e6e9 Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Thu, 7 Dec 2023 17:29:22 -0800 Subject: [PATCH 10/11] Add Padding (relleno) y el Truncation (truncamiento) in the final paragraphs --- docs/source/es/pad_truncation.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/source/es/pad_truncation.md b/docs/source/es/pad_truncation.md index 9d092447caf8a5..1ef1b57d308e46 100644 --- a/docs/source/es/pad_truncation.md +++ b/docs/source/es/pad_truncation.md @@ -40,7 +40,7 @@ El argumento `truncation` controla el truncamiento. Puede ser un booleano o una la primera oración de un par si se proporciona un par de secuencias (o un lote de pares de secuencias). - `False` o `'do_not_truncate'`: no se aplica truncamiento. Este es el comportamiento predeterminado. -El argumento `max_length` controla la longitud del Padding y el Truncation. Puede ser un número entero o `None`, en cuyo caso se establecerá automáticamente en la longitud máxima que el modelo puede aceptar. Si el modelo no tiene una longitud máxima de entrada específica, se desactiva el Truncation o el Padding hasta `max_length`. +El argumento `max_length` controla la longitud del Padding (relleno) y el Truncation (truncamiento). Puede ser un número entero o `None`, en cuyo caso se establecerá automáticamente en la longitud máxima que el modelo puede aceptar. Si el modelo no tiene una longitud máxima de entrada específica, se desactiva el Truncation o el Padding hasta `max_length`. La siguiente tabla resume la forma recomendada de configurar el Padding y el Truncation. Si usas pares de secuencias de entrada en alguno de los siguientes ejemplos, puedes reemplazar `truncation=True` por una `ESTRATEGIA` seleccionada en `['only_first', 'only_second', 'longest_first']`, es decir, `truncation='only_second'` o `truncation='longest_first'` para controlar cómo se truncan ambas secuencias en el par, como se detalló anteriormente. From 686ada4c59667d863b595217d102aafd3eef05ca Mon Sep 17 00:00:00 2001 From: Aaron Jimenez Date: Fri, 8 Dec 2023 07:41:57 -0800 Subject: [PATCH 11/11] Fix relleno and truncamiento words --- docs/source/es/pad_truncation.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/docs/source/es/pad_truncation.md b/docs/source/es/pad_truncation.md index 1ef1b57d308e46..6a31a69103502f 100644 --- a/docs/source/es/pad_truncation.md +++ b/docs/source/es/pad_truncation.md @@ -16,7 +16,7 @@ rendered properly in your Markdown viewer. # Relleno y truncamiento -Las entradas agrupadas por lotes (batched) suelen tener longitudes diferentes, por lo que no se pueden convertir en tensores de tamaño fijo. El relleno (también conocido como "Padding") y el truncamiento (conocido como "Truncation") son estrategias para abordar este problema y crear tensores rectangulares a partir de lotes de longitudes variables. El Padding agrega un **padding token** especial para garantizar que las secuencias más cortas tengan la misma longitud que la secuencia más larga en un lote o la longitud máxima aceptada por el modelo. Truncation funciona en la otra dirección al truncar secuencias largas. +Las entradas agrupadas por lotes (batched) suelen tener longitudes diferentes, por lo que no se pueden convertir en tensores de tamaño fijo. El relleno (también conocido como "Padding") y el truncamiento (conocido como "Truncation") son estrategias para abordar este problema y crear tensores rectangulares a partir de lotes de longitudes variables. El relleno agrega un **padding token** especial para garantizar que las secuencias más cortas tengan la misma longitud que la secuencia más larga en un lote o la longitud máxima aceptada por el modelo. El truncamiento funciona en la otra dirección al truncar secuencias largas. En la mayoría de los casos, es bastante eficaz rellenar el lote hasta la longitud de la secuencia más larga y truncar hasta la longitud máxima que un modelo puede aceptar. Sin embargo, la API admite más estrategias si las necesitas. Los tres argumentos que necesitas son: `padding`, `truncation` y `max_length`. @@ -24,7 +24,7 @@ El argumento `padding` controla el relleno. Puede ser un booleano o una cadena: - `True` o `'longest'`: rellena hasta la longitud de la secuencia más larga en el lote (no se aplica relleno si solo proporcionas una única secuencia). - `'max_length'`: rellena hasta una longitud especificada por el argumento `max_length` o la longitud máxima aceptada - por el modelo si no se proporciona `max_length` (`max_length=None`). El Padding se aplicará incluso si solo proporcionas una única secuencia. + por el modelo si no se proporciona `max_length` (`max_length=None`). El relleno se aplicará incluso si solo proporcionas una única secuencia. - `False` o `'do_not_pad'`: no se aplica relleno. Este es el comportamiento predeterminado. El argumento `truncation` controla el truncamiento. Puede ser un booleano o una cadena: @@ -40,9 +40,9 @@ El argumento `truncation` controla el truncamiento. Puede ser un booleano o una la primera oración de un par si se proporciona un par de secuencias (o un lote de pares de secuencias). - `False` o `'do_not_truncate'`: no se aplica truncamiento. Este es el comportamiento predeterminado. -El argumento `max_length` controla la longitud del Padding (relleno) y el Truncation (truncamiento). Puede ser un número entero o `None`, en cuyo caso se establecerá automáticamente en la longitud máxima que el modelo puede aceptar. Si el modelo no tiene una longitud máxima de entrada específica, se desactiva el Truncation o el Padding hasta `max_length`. +El argumento `max_length` controla la longitud del relleno y del truncamiento. Puede ser un número entero o `None`, en cuyo caso se establecerá automáticamente en la longitud máxima que el modelo puede aceptar. Si el modelo no tiene una longitud máxima de entrada específica, se desactiva el truncamiento o el relleno hasta `max_length`. -La siguiente tabla resume la forma recomendada de configurar el Padding y el Truncation. Si usas pares de secuencias de entrada en alguno de los siguientes ejemplos, puedes reemplazar `truncation=True` por una `ESTRATEGIA` seleccionada en +La siguiente tabla resume la forma recomendada de configurar el relleno y el truncamiento. Si usas pares de secuencias de entrada en alguno de los siguientes ejemplos, puedes reemplazar `truncation=True` por una `ESTRATEGIA` seleccionada en `['only_first', 'only_second', 'longest_first']`, es decir, `truncation='only_second'` o `truncation='longest_first'` para controlar cómo se truncan ambas secuencias en el par, como se detalló anteriormente. | Truncation | Padding | Instrucción |