forked from mdocekal/namegen
-
Notifications
You must be signed in to change notification settings - Fork 0
/
namegen_config.ini
executable file
·113 lines (88 loc) · 4.27 KB
/
namegen_config.ini
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
#Konfigurační soubor pro skript namegen.py generující tvary jmen.
#----------------------------------------------------------
[DEFAULT]
#Povolení/zakázaní filtrace tvarů na základě priorit terminálů.
#True povoleno, jinak zakázáno.
ALLOW_PRIORITY_FILTRATION=True
#Nastavení locale.
#Hodnota se předává do pythonovského locale.setlocale(locale.LC_ALL, HODNOTA).
#Od toho se odvíjí použitelné hodnoty.
#Pokud je prázdné ponechá defaultní/systémové.
LC_ALL=cs_CZ.UTF-8
[FILTERS]
#Filtrování jmen.
#Jazyky jmen, pro které chceme generovat tvary.
#Pokud je prázdné, odfiltruje pouze neznámé jazyky.
#Jinak očekává seznam značek jazyků.
LANGUAGES=
#Regulární výraz určující množinu všech povolených jmen.
#Pokud je prázdný, neaplikuje filtr.
REGEX_NAME=
#Povolená písmena (alfa znaky), které se mohou vyskytovat ve jméně, které má mít vygenerovány tvary.
#Jedná se pouze o kontrolu písmen a tedy neovlivňuje ostatní znaky (bílé znaky, pomlčky a další).
#Není case sensitive.
#Pokud je prázdný, neaplikuje filtr.
ALLOWED_ALPHABETIC_CHARACTERS=
#Povolené písmo.
#Kontroluje výskyt poskytnutého řetězce ve výsledku unicodedata.name pro alpha znaky.
# Používejte pouze velká písmena.
#Pokud je prázdný, neaplikuje filtr.
SCRIPT=LATIN
[DATA_FILES]
#cesta ke složce obsahující data pro jazyky
#Složku s daným jazykem pojmenujte dle značky jazyka, která je použita na vstupu namegenu (např. čeština cs).
#Každý adresář jazyka musí obsahovat:
# podadresář grammars s gramatikami
# soubor titles.txt s tituly
LANGUAGES=./data/languages
#název souboru s gramatikou pro mužská jména
GRAMMAR_MALE=grammar_male.txt
#název souboru s gramatikou pro ženská jména
GRAMMAR_FEMALE=grammar_female.txt
#název souboru s gramatikou pro názvy lokací
GRAMMAR_LOCATIONS=grammar_locations.txt
#název souboru s gramatikou pro názvy událostí (zatím spíše pro budoucí užití)
GRAMMAR_EVENTS=grammar_events.txt
#Slova, která se mají detekovat jako tituly.
#Uveďte název souboru s nimi.
TITLES=titles.txt
# Definuje množiny slov, která jsou ekvivalentní a mají se rozgenerovat všechna ostatní z dané množiny pokud je na vstupu
# jedno z nich.
# Uveďte název python souboru.
EQ_GEN=eq_gen.py
# Název souboru (skriptu) ve složce jazyka, který má být použit jako morfologický analyzátor.
# Pro svoji práci namegen používá parametry -F -m -n.
MA=ma.sh
[GENERATORS]
#Sekce pro generátory.
#Zapíná/vypíná generování formy v podobě zkratky vytvořené z předložek v daném názvu/jménu.
#Příklad:
# z: Nové Město na Moravě
# vygeneruje: Nové Město n. Moravě
ABBRE_FORM_OF_PREPOSITIONS=False
#Výčet druhů jmen, na které se má použít generování.
#Jednotlivé druhy oddělujte mezerou (používá se python .split).
#Možné hodnoty jsou stejné jako hodnoty druhu slova ve vstupním souboru.
#Pro zobecnění na všechny mužské/ženské použíjte M/F.
ABBRE_FORM_OF_PREPOSITIONS_USE_ON=L
[GRAMMAR]
#Maximální počet milisekund pro trvání syntaktické analýzy.
# Teoreticky může lehce přesáhnout, jelikož dochází ke kontrole na jednom bodě v programu (počátek metody crawling).
#Pokud None je doba neomezená, jinak očekává kladné celé číslo.
TIMEOUT=60000
#Příznak zdali se má pomocí gramatik zpracovávat token typu ANALYZE_UNKNOWN. Jedná se o speciální
#druh tokenu, který mají slova pro něž se nepodařilo získat morfologickou analýzu, přestože by analyzovány měly být.
#V gramatice se tento token váže na terminál, který je jedním z uvedených druhů v PARSE_UNKNOWN_ANALYZE_TERMINAL_MATCH.
#Hodnoty: True používat
# False nepoužívat
PARSE_UNKNOWN_ANALYZE=True
#Pokud je PARSE_UNKNOWN_ANALYZE True, pak udává druhy terminálů, které se na token váží.
#Protože není dostupná analýza nekontrolují se atributy jako je rod či číslo a další. Kontroluje se
#ovšem regex, který je možný vyhodnotit.
#Seznam možných druhů terminálů, lze nalézt v data/grammars/README.md.
#Každý druh musí být oddělen mezerou.
PARSE_UNKNOWN_ANALYZE_TERMINAL_MATCH=1 2
[DERIV]
#Configurace pro generování odvozených tvarů.
# Druhy odvození jmen, které se mají generovat.
GENERATE_DERIV_NAMES_TYPES=1201 1103 1202 1109 1102#jN