From a59e014f65f2acbf40eeac9fab77132c7334ffea Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Michal=20Nov=C3=A1k?= Date: Wed, 6 Nov 2024 17:23:25 +0100 Subject: [PATCH] Update README-cs.md --- data_preparation/70.releasing/README-cs.md | 11 +++++++---- 1 file changed, 7 insertions(+), 4 deletions(-) diff --git a/data_preparation/70.releasing/README-cs.md b/data_preparation/70.releasing/README-cs.md index 6f1ec6e..95a22f3 100644 --- a/data_preparation/70.releasing/README-cs.md +++ b/data_preparation/70.releasing/README-cs.md @@ -3,7 +3,7 @@ Databáze mluvených projevů v češtině jako cizím jazyce (trvalý pobyt v ČR) je jazykový korpus mluvených projevů nerodilých mluvčích češtiny zaměřený na jazykovou úroveň A2 (podle SERR), požadovanou pro udělení trvalého pobytu v České republice. Obsahuje nahrávky zaznamenávající ústní část [Certifikované zkoušky z češtiny pro cizince](http://ujop.cuni.cz/cce). Nahrávky zahrnují dialogy mezi zkoušejícím (rodilým mluvčím) a kandidátem zkoušky (nerodilým mluvčím). Kromě nahrávek korpus obsahuje také jejich přepisy, které jsou opatřeny bohatou lingvistickou anotací. -K některým nahrávkám je připojeno více přepisů od různých anotátorů, což umožňuje srovnání různých přepisů téže nahrávky a vyhodnocení míry shody při převodu mluvené řeči do psaného textu. +K některým nahrávkám je připojeno více přepisů od různých anotátorů, což umožňuje srovnání různých přepisů téže nahrávky a vyhodnocení míry shody při převodu mluvené řeči do psaného textu. Korpus je zveřejněn jako specializovaná veřejná databáze s cílem poskytnout strukturovaný a snadno přístupný zdroj autentických mluvených dat pro lingvisty, pedagogy, studenty, vědeckou komunitu a širokou veřejnost. @@ -12,10 +12,13 @@ Audionahrávky poskytl [Ústav jazykové a odborné přípravy Univerzity Karlov ## Statistiky +Databáze obsahuje 63 nahrávek zachycujících stejný počet zkoušek a stejný počet nerodilých mluvčích. +Celková délka všech nahrávek je 3h 15min 40s. +Tabulka níže ukazuje statistiky přepisů, přičemž pro každou nahrávku byl vybrán právě jeden kanonický přepis. + | | Všechny | Kanonické | -| ---------------------------------- | -| Nahrávky | 63 | | -| Transkripty | 106 | 63 | +| ------------|--------:|-----------:| +| Soubory | 106 | 63 | | Repliky | 4 773 | 2 888 | | Tokeny | 33 267 | 20 035 |