Skip to content

Commit

Permalink
Merge pull request #38 from mideind/stak
Browse files Browse the repository at this point in the history
Evaluation suite updated
  • Loading branch information
Holado authored Jan 20, 2022
2 parents 3f65487 + 24a6129 commit 19eb67b
Show file tree
Hide file tree
Showing 10 changed files with 22,332 additions and 6,029 deletions.
2 changes: 1 addition & 1 deletion README.rst
Original file line number Diff line number Diff line change
Expand Up @@ -372,7 +372,7 @@ This software is licensed under the *MIT License*:
GreynirCorrect indirectly embeds the `Database of Icelandic Morphology <https://bin.arnastofnun.is>`_
(`Beygingarlýsing íslensks nútímamáls <https://bin.arnastofnun.is>`_), abbreviated BÍN,
along with directly using `Ritmyndir <https://bin.arnastofnun.is/DMII/LTdata/comp-format/nonstand-form/>`, a collection of non-standard word forms.
GreynirCorrect does not claim any endorsement by the BÍN authors or copyright holders.
Miðeind does not claim any endorsement by the BÍN authors or copyright holders.

The BÍN source data are publicly available under the
`CC BY-SA 4.0 license <https://creativecommons.org/licenses/by-sa/4.0/>`_, as further
Expand Down
384 changes: 364 additions & 20 deletions eval/eval.py

Large diffs are not rendered by default.

15 changes: 15 additions & 0 deletions src/reynir_correct/config/GreynirCorrect.conf
Original file line number Diff line number Diff line change
Expand Up @@ -4423,6 +4423,16 @@ Vistfræðikenning
Þjóðfræði
Þrælastríð

# The tsv file is retrieved from http://hdl.handle.net/20.500.12537/63
# and needs to be in the config folder.
[iec_nonwords]
$include IEC_nonwords.tsv

# The tsv file is retrieved from http://hdl.handle.net/20.500.12537/78
# and needs to be in the config folder
[icesquer]
$include IceSQuErVersion01.tsv

[ritmyndir]
# The csv file is retrieved from https://bin.arnastofnun.is/gogn/mimisbrunnur/
# as a part of Storasnid_allt.zip and needs to be in the config folder.
Expand Down Expand Up @@ -4458,6 +4468,7 @@ $include Storasnid_ritm.csv
"CJE4CE": "", "Stafsetningarvilla", "Ekki á að skrifa 'gje' í '{original}' heldur 'ge', svo: '{correct}'."
"CÉ4CE": "3.4", "Stafsetningarvilla", "Ekki á að skrifa gé/ké í '{original}' heldur ge/ke, svo: '{correct}'."
"DN4NN": "16.2", "Stafsetningarvilla", "Þó að d-hljóð heyrist í framburðinum birtist það ekki í stafsetningu orðsins '{original}', heldur á það að vera '{correct}'."
"DR4INN-LO": "", "Beygingarvilla", "Lýsingarorðið '{original}' ætti að beygjast svo: '{correct}'."
"E4EI": "5", "Stafsetningarvilla", "Rita ætti 'ei' í stað 'e' í '{original}', svo: '{correct}'."
"EBEYG": "", "Beygingarvilla", "Beygingarmyndin '{original}' er eldri, ákjósanlegra er að rita '{correct}'"
"EFINGU": "", "Beygingarvilla", "Eignarfallsending kvenkynsorða sem enda á -ing eiga að vera -u/-unnar."
Expand Down Expand Up @@ -4485,6 +4496,7 @@ $include Storasnid_ritm.csv
"HA4LAG": "1.3.2 f", "Stafsetningarvilla", "Rétt er að rita '{original}' með litlum staf, svo: '{correct}'."
"HK4KVK": "", "Beygingarvilla", "Orðið '{lemma}' er kvenkynsnafnorð svo orðmyndin '{original}' ætti að ritast '{correct}'."
"HV4KV": "", "Beygingarvilla", "Rita ætti 'kv' í stað 'hv' í orðmyndinni '{original}', þó að munur heyrist ekki í framburði margra, svo: '{correct}'."
"I40-ÞGF": "", "Beygingarvilla", "Ekki skal rita -i- í þágufalli eintölu nafnorðsins '{lemma}'."
"I4Y": "6.2.1, 6.3, 6.4", "Stafsetningarvilla", "Rita ætti 'y' í stað 'i' í '{original}', svo: '{correct}'."
"I4Í": "", "Stafsetningarvilla", "Rita ætti 'í' í stað 'i' í '{original}', svo: '{correct}'."
"J4G": "8", "Stafsetningarvilla", "Rita ætti 'g' í stað 'j' í '{original}', svo: '{correct}'."
Expand Down Expand Up @@ -4551,6 +4563,8 @@ $include Storasnid_ritm.csv
"STAFSVVIXL": "", "Stafsetningarvilla", "Hér hafa sérhljóð og samhljóð víxlast í stafsetningu, rita ætti '{original}' sem '{correct}'."
"STK4SK": "19", "Stafsetningarvilla", "Rita ætti 'sk' í stað 'stk' í '{original}', svo: '{correct}'."
"STN4SN": "19", "Stafsetningarvilla", "Rita ætti 'sn' í stað 'stn' í '{original}', svo: '{correct}'."
"S4AR-EF": "", "Stafsetningarvilla", "Eignarfallsending karlkynsnafnorðsins '{original}' á að vera -(j)ar/-arins í stað -s/-sins, svo: '{correct}'."
"S-EFGR": "", "Stafsetningarvilla", "-s- vantar á undan greini í eignarfallsendingu nafnorðsins '{original}', sem rita ætti svo: '{correct}'."
"T4TT": "18", "Stafsetningarvilla", "Rita ætti 'tt' í stað 't' í '{original}', svo: '{correct}'."
"TOKV": "", "Stafsetningarvilla", "Umritun tökuorðsins '{original}' er ekki í samræmi við Stafsetningarorðabók, það á að ritast '{correct}'."
"TTN4TN": "18", "Stafsetningarvilla", "Rita ætti 'tn' í stað 'ttn' í '{original}', svo: '{correct}'."
Expand All @@ -4565,6 +4579,7 @@ $include Storasnid_ritm.csv
"Í4Ý": "6.2.2, 6.4", "Stafsetningarvilla", "Rita ætti 'ý' í stað 'í' í '{original}', svo: '{correct}'."
"Ý4Y": "", "Stafsetningarvilla", "Rita ætti 'y' í stað 'ý' í '{original}', svo: '{correct}'."
"Ý4Í": "6.2.2, 6.4", "Stafsetningarvilla", "Rita ætti 'í' í stað 'ý' í '{original}', svo: '{correct}'."
"VILLA": "", "Stafsetningarvilla", "Rita ætti '{correct}' í stað '{original}'."

[taboo_words]

Expand Down
Loading

0 comments on commit 19eb67b

Please sign in to comment.