configs/data_juicer_recipes/redpajama-c4-refine.yaml

# global parameters
project_name: 'Data-Juicer-recipes-c4'
dataset_path: '/path/to/your/dataset'  # path to your dataset directory or file
export_path: '/path/to/your/dataset.jsonl' # path to your dataset result file

np: 50  # number of subprocess to process your dataset
open_tracer: True

# process schedule
# a list of several process operators with their arguments
process:
  - clean_email_mapper:
  - clean_links_mapper:
  - fix_unicode_mapper:
  - punctuation_normalization_mapper:
  - whitespace_normalization_mapper:

  - alphanumeric_filter:
      tokenization: false
      min_ratio: 0.65  # <3sigma (0.740)
      max_ratio: 0.9   # >3sigma (0.867)
  - average_line_length_filter:  # for code
      max_len: 3000  # >3sigma (1277)
  - character_repetition_filter:
      rep_len: 10
      max_ratio: 0.3  # >3sigma (0.168)
  - language_id_score_filter:
      min_score: 0.6
  - maximum_line_length_filter:  # for code
      max_len: 4000  # >3sigma (2017)
  - perplexity_filter:
      lang: en
      max_ppl: 6000 #(>3sigma 4543)
  - special_characters_filter:
      max_ratio: 0.4  # > 3sigma (0.303)
  - words_num_filter:
      tokenization: true
      min_num: 20
      max_num: 10000
  - word_repetition_filter:
      lang: en
      tokenization: true
      rep_len: 10
      max_ratio: 0.231  # 3sigma

  - document_simhash_deduplicator:
      tokenization: space
      window_size: 6
      lowercase: true
      ignore_pattern: '\p{P}'
      num_blocks: 6
      hamming_distance: 4