Databáze mluvených projevů v češtině jako cizím jazyce (trvalý pobyt v ČR)
Jazykový korpus byl vytvořen v Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy za účelem podpory výuky, výzkumu a hodnocení jazykové kompetence nerodilých mluvčích češtiny. Cílem je poskytnout strukturovaný a snadno přístupný zdroj autentických mluvených dat pro lingvisty, pedagogy, studenty, veřejnost a vědeckou komunitu. Korpus se zaměřuje na jazykovou úroveň A2, která je potřebná pro udělení trvalého pobytu v České republice. Audionahrávky pro databázi poskytl Ústav jazykové a odborné přípravy Univerzity Karlovy (
Vznik databáze byl financován z prostředků Programu na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030 (NAKI III) Ministerstva kultury ČR v rámci projektu Automatické hodnocení mluveného projevu v češtině (DH23P03OVV037).
Databáze mluvených projevů v češtině jako cizím jazyce (trvalý pobyt v ČR)
Databáze mluvených projevů v češtině jako cizím jazyce (trvalý pobyt v ČR) je jazykový korpus mluvených projevů nerodilých mluvčích češtiny zaměřený na jazykovou úroveň A2 (podle SERR), požadovanou pro udělení trvalého pobytu v České republice. Obsahuje nahrávky zaznamenávající ústní část Certifikované zkoušky z češtiny pro cizince. Nahrávky zahrnují dialogy mezi zkoušejícím (rodilým mluvčím) a kandidátem zkoušky (nerodilým mluvčím). Kromě nahrávek korpus obsahuje také jejich přepisy, které jsou opatřeny bohatou lingvistickou anotací. K některým nahrávkám je připojeno více přepisů od různých anotátorů, což umožňuje srovnání různých přepisů téže nahrávky a vyhodnocení míry shody při převodu mluvené řeči do psaného textu.
Korpus je zveřejněn jako specializovaná veřejná databáze s cílem poskytnout strukturovaný a snadno přístupný zdroj autentických mluvených dat pro lingvisty, pedagogy, studenty, vědeckou komunitu a širokou veřejnost.
Databáze obsahuje 63 nahrávek zachycujících stejný počet zkoušek a stejný počet nerodilých mluvčích. Celková délka všech nahrávek je 3h 15min 40s. Tabulka níže ukazuje statistiky přepisů, přičemž pro každou nahrávku byl vybrán právě jeden kanonický přepis.
Autoři databáze srdečně děkují PhDr. Pavlovi Pečenému, Ph.D., z Ústavu jazykové a odborné přípravy Univerzity Karlovy za poskytnutí audiodat.
Database of Spoken Czech as a Foreign Language (Permanent Residency in the Czech Republic)
The database was funded by the Programme to Support Applied Research in the Area of the National and Cultural Identity for the Years 2023 to 2030 (NAKI III) of the Ministry of Culture of the Czech Republic within the project Automated Speech Scoring in Czech (DH23P03OVV037).
Database of Spoken Czech as a Foreign Language (Permanent Residency in the Czech Republic)
Database of Spoken Czech as a Foreign Language (Permanent Residency in the Czech Republic) is the language corpus of spoken performances by non-native speakers of Czech focused on A2 level (according to the CEFR), which is required for the granting of permanent residency in the Czech Republic. It includes recordings capturing the oral part of the Czech Language Certificate Exam. The recordings consist of dialogues between the examiner (a native speaker) and the candidate (a non-native speaker). In addition to the recordings, the corpus also contains their transcriptions, which are richly linguistically annotated. Some recordings are accompanied by multiple transcriptions from different annotators, allowing for comparisons of various transcripts of the same recording and evaluations of the degree of consistency in converting spoken language into written text.
The corpus is published as a specialized public database aimed at providing a structured and easily accessible source of authentic spoken data for linguists, educators, students, the scientific community, and the general public.
The database contains 63 recordings, capturing the same number of tests and the same number of non-native speakers. The total length of all recordings is 3h 15min 40s. The table below shows the transcription statistics, with one canonical transcription selected for each recording.
The corpus is published under the CC BY-NC-SA 4.0 license.
The database was funded by the Programme to Support Applied Research in the Area of the National and Cultural Identity for the Years 2023 to 2030 (NAKI III) of the Ministry of Culture of the Czech Republic within the project Automated Speech Scoring in Czech (DH23P03OVV037).
Special Thanks
The authors of the database sincerely thank PhDr. Pavel Pečený, Ph.D., from the Institute for Language and Preparatory Studies, Charles University for providing audio data.
How to Cite
Rysová Kateřina, Novák Michal, Rysová Magdaléna, Polák Peter, Bojar Ondřej: Database of Spoken Czech as a Foreign Language (Permanent Residency in the Czech Republic). Institute of Formal and Applied Linguistics MFF UK, Prague 2024. Available from WWW
Základní funkce databáze zahrnuje prohlížení záznamů s různými způsoby jejich zobrazení, filtrování záznamů podle různých kategorií a komplexní vyhledávání v obsahu databáze. Databáze rovněž umožňuje stáhnout korpus jako celek nebo stáhnout vybrané záznamy.
Prohlížení záznamů
Po vstupu do korpusu se v přehledné tabulce zobrazí všechny záznamy (tj. soubory transkriptů) uložené v databázi. Pro každý soubor s transkriptem tabulka kromě názvu souboru zobrazuje v dalších sloupcích úroveň a identifikátor zkoušky, číslo úlohy, zdroj předběžné anotace, kód anotátora a informaci o tom, zda je přepis pro danou nahrávku kanonický. Soubory v tabulce je možné třídit podle hodnot vybraného sloupce. Záznamy lze také filtrovat na základě libovolného podřetězce v názvu souboru zadáním tohoto podřetězce do textového pole “Search” umístěného vpravo nad tabulkou. Kliknutím na konkrétní soubor se tento soubor zobrazí.
Zobrazení souboru
Databáze umožňuje prohlížet přepisy jednotlivých replik spolu s anotacemi a metadaty a také poslouchat příslušné zvukové nahrávky. Charakter zobrazených informací se liší podle zvoleného režimu zobrazení, mezi kterými lze přepínat v dolní části stránky pod samotným přepisem.
Režim Text View
Text View je základní režim zobrazení, který se objeví po otevření souboru. V horní části obrazovky se nachází hlavička s názvem přepisu a vybranými metadaty. V dolní části je zobrazen samotný přepis, rozdělený na repliky. Každá replika je označena identifikátorem mluvčího (EXAM_1 pro zkoušejícího a CAND_1 pro kandidáta).
Tento režim rovněž umožňuje zobrazit automatickou morfologickou anotaci a lemmatizaci. Po najetí kurzorem na konkrétní token se zobrazí příslušná anotace v kontextu. Pro zobrazení vybraného atributu pro všechny tokeny v přepisu lze využít ovládací prvky umístěné pod hlavičkou, které obsahují následující tlačítka: - PoS: Zobrazí slovní druhy. - Tag: Ukáže morfologické tagy. - Features: Poskytne podrobné morfologické informace. - Lemma: Zobrazí základní tvary slov.
Režim Waveform View
V horní části obrazovky se nachází rozšířený ovládací prvek pro přehrávání nahrávky, který zobrazuje graf signálu (tzv. waveform). Pod ním jsou zobrazeny přepisy jednotlivých replik. Kliknutím na konkrétní repliku se tato replika přehraje.
Režim Dependencies
Tento režim zobrazuje syntaktickou anotaci. Po kliknutí na konkrétní repliku se zobrazí automaticky vygenerovaný závislostní strom, u nějž je možné zobrazit detaily pomocí myši. Vpravo nahoře od stromu se nachází tlačítko ≡ pro další možnosti zobrazení stromu. Je tak možné uspořádat uzly podle slovosledu, zobrazit interpunkci nebo uložit obrázek stromu ve formátu SVG.
Filtrování záznamů přes kategorie
Po kliknutí na tlačítko Kategorie v levém hlavním menu je možné filtrovat přepisy na základě hodnot jednotlivých kategorií. Například je tak možné zobrazit si pouze seznam kanonických přepisů nebo přepisů od konkrétního anotátora.
Vyhledávání v korpusu lze provádět na stránce, která se zobrazí po klinutí na tlačítko Hledat v levém hlavním menu. Stránka umožňuje zadávat dotazy ve formátu CQL (Corpus Query Language). Např.
[upos = "NUM.*"] [lemma = "otázka"]
pro nalezení tvarů slova otázka, jimž předchází číslovka.
Pro usnadnění vyhledávání nabízí rozhraní TEITOK nástroj pro sestavování dotazů. Tento nástroj umožňuje snadno definovat jednoduché dotazy v CQL prostřednictvím formuláře. Stačí kliknout na ikonu Query builder, definovat svůj dotaz a poté stisknout tlačítko Create query, čímž se dotaz vloží do textového pole CQL, kde jej můžete případně upravit.
V základním nastavení TEITOK provádí vyhledávání v celém korpusu, který může obsahovat k jedné nahrávce více přepisů. Pokud chcete vyhledávat pouze v té části korpusu, v níž je ke každé nahrávce přiřazený jen jediný přepis, je nutné omezit hledání na tzv. kanonické přepisy. Např.
[lemma = "situace"] :: match.text_canonical = "1"
vyhledává lemma situace jenom v kanonických přepisech.
Celý korpus včetně nahrávek a dokumentace je možné stáhnout z hlavního menu vlevo.
Konkrétní přepis lze stáhnout v režimu Text view kliknutím na tlačítko Download XML umístěné v dolní části stránky.
The basic functions of the database include browsing records with various display options, filtering records by different categories, and performing complex searches within the database content. The database also allows users to download the entire corpus or selected records.
Browsing Records
Upon entering the corpus, all records (i.e., transcript files) stored in the database are displayed in a clear table. For each transcript file, the table shows, in addition to the file name, the level and identifier of the exam, the task number, the source of the preliminary annotation, the annotator’s code, and information on whether the transcript for that recording is canonical. The files in the table can be sorted by the values in a selected column. Records can also be filtered based on any substring in the file name by entering this substring in the “Search” text box located to the right above the table. Clicking on a specific file will display that file.
Viewing a File
The database allows users to view the transcripts of individual turns along with annotations and metadata, and to listen to the corresponding audio recordings. The nature of the displayed information varies according to the selected display mode, which can be switched at the bottom of the page below the transcript.
Text View Mode
Text View is the basic display mode that appears upon opening a file. At the top of the screen is a header with the title of the transcript and selected metadata. The transcript itself is displayed at the bottom, divided into turns. Each turn is marked with the speaker’s identifier (EXAM_1 for the examiner and CAND_1 for the candidate).
This mode also allows users to view automatic morphological annotation and lemmatization. Hovering the cursor over a specific token will display the corresponding annotation in context. To display a selected attribute for all tokens in the transcript, controls located below the header can be used, which include the following buttons: - PoS: Displays parts of speech. - Tag: Shows morphological tags. - Features: Provides detailed morphological information. - Lemma: Displays base forms of words.
Waveform View Mode
At the top of the screen, there is an extended playback control for the recording, which displays a signal graph (i.e., waveform). Below it, the transcripts of individual turns are displayed. Clicking on a specific turn will play that turn.
Dependencies Mode
This mode displays syntactic annotation. When clicking on a specific turn, an automatically generated dependency tree is displayed, with details available via mouse hover. In the upper right corner of the tree is a ≡ button for additional display options for the tree. It is possible to arrange nodes by word order, display punctuation, or save an image of the tree in SVG format.
Filtering Records by Categories
By clicking on the Browse button in the left main menu, users can filter transcripts based on the values of individual categories. For example, it is possible to display only a list of canonical transcripts or transcripts from a specific annotator.
Searching within the corpus can be done on a page that appears after clicking the Search button in the left main menu. This page allows users to enter queries in CQL (Corpus Query Language) format. For example:
[upos = "NUM.*"] [lemma = "otázka"]
to find forms of the word otázka that are preceded by a numeral.
To facilitate searching, the TEITOK interface provides a query builder tool. This tool allows users to easily define simple queries in CQL through a form. Just click the Query builder icon, define your query, and then press the Create query button, which inserts the query into the CQL text box where it can be further edited if needed.
By default, TEITOK searches the entire corpus, which may contain multiple transcripts for a single recording. If you want to search only in the part of the corpus where each recording has only a single associated transcript, you must restrict the search to so-called canonical transcripts. For example:
[lemma = "situace"] :: match.text_canonical = "1"
searches for the lemma situace only in canonical transcripts.
The entire corpus, including recordings and documentation, can be downloaded from the main menu on the left.
A specific transcript can be downloaded in Text view mode by clicking the Download XML button located at the bottom of the page.
Jazykový korpus mluvených projevů nerodilých mluvčích češtiny zaměřený na jazykovou úroveň A2 (podle SERR), požadovanou pro udělení trvalého pobytu v České republice, je výsledkem projektu realizovaného v Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy. Korpus obsahuje nahrávky zaznamenávající ústní část Certifikované zkoušky z češtiny pro cizince na úrovni A2. Nahrávky zahrnují dialogy mezi zkoušejícím (rodilým mluvčím) a kandidátem zkoušky (nerodilým mluvčím). Náhravky jsme opatřili jejich přepisy a bohatou lingvistickou anotací. K některým nahrávkám je připojeno více přepisů od různých anotátorů, což umožňuje srovnání různých přepisů téže nahrávky a vyhodnocení míry shody při převodu mluvené řeči do psaného textu.
Korpus je zveřejněn jako specializovaná veřejná databáze a je volně dostupný široké veřejnosti, vědecké komunitě, pedagogům a studentům. Databáze je integrována do systému TEITOK, který je spravován na platformě LINDAT/CLARIAH-CZ.
TEITOK je framework pro vytváření, správu a zveřejňování anotovaných korpusů. Jeho webové rozhraní je implementováno v kombinaci jazyků PHP a JavaScript. Pro náš projekt, který kombinuje nahrávky mluveného projevu a jejich přepisy, je stěžejní funkcionalita prostředí TEITOK, která umožňuje vytvářet, zobrazovat a upravovat přepisy nahrávek. K práci se samotnou nahrávkou TEITOK využívá Javascript knihovnu wavesurfer.
Uložení dat
Data korpusu jsou v prostředí TEITOK primárně uložena ve formě souborů. V tomto případě se jedná o nahrávky ve formátu MP3, hlavní části jsou však soubory ve formátu TEITOK, které obsahují všechny přepisy a anotace včetně metadat. Tyto soubory jsou navzájem provázány s odpovídajícími nahrávkami.
Struktura souborů TEITOK
Formát TEITOK je formát XML, který plně odpovídá standardu Text Encoding Initiative (TEI), avšak s mírně odlišným přístupem k tokenizaci. Struktura TEITOK souborů v naší databázi je následující:
Hlavička s metadaty <teiHeader>
<fileDesc> – Popis souboru
<titleStmt>: Obsahuje název souboru a informace o autorech a anotátorech.
<editionStmt>: Obsahuje číslo verze.
<publicationStmt>: Publikační detaily, jako je vydavatel, datum vydání a licence.
<sourceDesc>: Popis zdrojové nahrávky a odkaz na ni.
<encodingDesc> – Popis kódování
<projectDesc>: Stručný popis projektu, v rámci něhož data vznikla.
<annotationDecl>: Detaily o jednotlivých krocích anotace (primární, revize, lingvistická anotace).
<profileDesc> – Profil textu
<langUsage>: Použitý jazyk (čeština).
<textClass>: Metadata dokumentu:
database: Název databáze.
exam-id: Identifikátor zkoušky.
cefr-level: Úroveň podle SERR. Tato databáze obsahuje výhradně nahrávky zkoušek úrovně A2.
task-number: Číslo úlohy.
preannot-source: Zdroj předběžné anotace.
annotator: Kód anotátora.
canonical: Hodnota 1 značí kanonický přepis.
Hlavní obsah <text>
Sekce <text> obsahuje jednotlivé úseky mluveného projevu strukturované pomocí elementů <u>: - <u>: Každý element <u> reprezentuje úsek projevu a má atributy: - start a end: Počáteční a koncový čas v sekundách. - who: Mluvčí (např. “EXAM_1” pro zkoušejícího a “CAND_1” pro kandidáta). - <s>: Každá věta je označena elementem <s>. - <tok>: Elementy tokenů, jejichž atributy popisují lemma, slovní druh, morfologické rysy a syntaktický vztah. - <anon/>: Anonymizovaný úsek nahrávky. - <gap reason="unintelligible"/>: Nesrozumitelný úsek nahrávky.
Příprava souborů TEITOK
Příprava souborů TEITOK probíhala v několika fázích:
Předběžná anotace. V rámci výzkumu spojeného s vytvářením databáze jsme porovnávali přímou ruční anotaci s manuální post-editací výstupů systémů pro automatické rozpoznávání řeči. Manuální anotace tak může vycházet z automaticky připravené předběžné anotace. Zdroj předběžné anotace rozlišujeme pomocí atributu preannot-source, jehož hodnota může být:
from_scratch: Kompletně manuální anotace, t.j. předběžná anotace je prázdná.
from_whisperX: Předběžná anotace získaná pomocí systému WhisperX.
from_mixed: Předběžná anotace získaná náhodným kombinovaním výstupů čtyř systémů na úrovni replik.
Když předběžná anotace nebyla prázdná, převedli jsme ji do základní verze formátu TEITOK. Na konci této fáze tak obsahovala přepisy rozdělené do replik (elementy <u>), přiřazení mluvčích k replikám (atribut who) a časové zarovnání s nahrávkou (atributy start a end).
Manuální anotace. Po nahrání souborů provedly zaškolené anotátorky manuální anotaci v prostředí TEITOK, během níž vytvářely nebo opravovaly přepisy, přiřazovaly mluvčí k replikám a pomocí časových značek zarovnávaly repliky s nahrávkou. Nahrávky byly anonymizovány v souladu s požadavky Ústavu jazykové a odborné přípravy Univerzity Karlovy (ÚJOP UK), který audionahrávky pro korpus poskytl. Některé anotátorky z opatrnosti anonymizovaly i údaje, které anonymizovány být nemusely (např. smyšlená jména osob).
Revize. Ruční kontrola manuálních anotací spoluautorkou databáze.
Normalizace. Automatická úprava přepisů, která odstraní odchylky ve jménech mluvčích, seřadí repliky podle počátečního času a přidělí replikám nové sekvenční ID.
Rozdělení na úlohy a selekce. Poskytovatel nahrávek (ÚJOP UK) povolil ke zveřejnění pouze vybrané úlohy. Ty jsme museli z nahrávek vystřihnout a upravit časové značky v přepisech, aby se zachovalo zarovnání replik v přepisu s nahrávkou. Pro stříhání nahrávky jsme použili nástroj FFmpeg.
Lingvistická anotace. Až do této fáze nebyly repliky v přepisech dále strukturovány. V této fázi jsme text rozdělili na věty (element <s>) a následně věty na tokeny (elemety <tok>). Na úrovni tokenů jsou přepisy automaticky lingvisticky anotovány. Každému tokenu je přiděleno lemma (atribut lemma), jazykově specifická morfologická značka (atribut xpos), slovní druh a morfologické vlastnosti dle kategorizace projektu Universal Dependencies (atributy upos a feats). Dále je každému tokenu přiřazen odkaz na ID rodiče podle pravidel závislostní syntaxe (atribut head) a typ závislosti tokenu ve vztahu k jeho rodiči (atribut deprel). Pro lingvistickou anotaci, včetně tokenizace, jsme použili nástroj UDPipe 2, konkrétně model czech-pdt-ud-2.12-230717 pro češtinu. Ačkoli je možné provádět tokenizaci a automatickou lingvistickou anotaci přímo v prostředí TEITOK, my jsme tento proces realizovali samostatně. Důvodem je, že metoda tokenizace v prostředí TEITOK se liší od té, která je optimalizována pro UDPipe, což by mohlo způsobovat chyby při spojování těchto dvou kroků.
Doplnění hlavičky TEI. Na závěr jsme doplnili hlavičku podle všech dostupných metadat, aby odpovídala standardům TEI.
Všechy nástroje a skripty (převážně v jazycích Python 3 a BASH) jsou k dispozici ve veřejném repozitáři projektu v adresáři data_preparation.
Dotazování, vyhledávání a filtrování
Rychlé dotazování, vyhledávání a filtrace jsou umožněny integrovaným procesorem dotazů CQP, klíčovou komponentou sady nástrojů IMS Open Corpus Workbench (CWB). CQP převádí korpusy ve formátu XML do binární podoby a efektivně je indexuje. Dotazování v indexovaných korpusech probíhá pomocí jazyka CQL, který je standardem v korpusové lingvistice. TEITOK také nabízí Query builder, v němž může uživatel specifikovat dotaz vyplněním formuláře. Výsledek dotazu vrácený z CQP je následně zpracován pomocí TEITOKu a zobrazen uživateli v přehledné formě. Výsledky dotazů je možné stáhnout ve formátu XML.
The language corpus of spoken performances by non-native speakers of Czech, focused on the A2 language level (according to the CEFR), required for obtaining permanent residency in the Czech Republic, is the result of a project implemented at the Institute of Formal and Applied Linguistics of the Faculty of Mathematics and Physics, Charles University. The corpus contains recordings capturing the oral part of the Czech Language Certificate Exam at the A2 level. The recordings include dialogues between the examiner (a native speaker) and the candidate (a non-native speaker). We have provided transcriptions of the recordings, enriched with extensive linguistic annotations. Some recordings are accompanied by multiple transcriptions from different annotators, allowing for comparisons of various transcriptions of the same recording and the assessment of the degree of agreement when converting spoken language into written text.
The corpus is published as a specialized public database and is freely accessible to the general public, the scientific community, educators, and students. The database is integrated into the TEITOK system, managed on the LINDAT/CLARIAH-CZ platform.
TEITOK is a framework for creating, managing, and publishing annotated corpora. Its web interface is implemented using a combination of PHP and JavaScript. For our project, which combines recordings of spoken speech and their transcriptions, the key functionality of the TEITOK environment allows us to create, display, and edit recordings’ transcriptions. To work with the recordings themselves, TEITOK utilizes the JavaScript library wavesurfer.
Data Storage
The corpus data is primarily stored in the TEITOK environment in the form of files. In this case, the recordings are in MP3 format, while the main components are TEITOK format files, which contain all transcriptions and annotations, including metadata. These files are interconnected with the corresponding recordings.
Structure of TEITOK Files
The TEITOK format is an XML format that fully complies with the Text Encoding Initiative (TEI) standards, but with a slightly different approach to tokenization. The structure of TEITOK files in our database is as follows:
Header with Metadata <teiHeader>
<fileDesc> – File description
<titleStmt>: Contains the title of the file and information about authors and annotators.
<editionStmt>: Contains version number.
<publicationStmt>: Publication details, such as publisher, release date, and license.
<sourceDesc>: Description of the source recording and a link to it.
<encodingDesc> – Description of encoding
<projectDesc>: A brief description of the project under which the data was created.
<annotationDecl>: Details of the individual annotation steps (primary, revision, linguistic annotation).
<profileDesc> – Profile of the text
<langUsage>: Language used (Czech).
<textClass>: Document metadata:
database: Database name.
exam-id: Exam identifier.
cefr-level: CEFR level. This database contains recordings exclusively from A2 level exams.
task-number: Task number.
preannot-source: Source of preliminary annotation.
annotator: Annotator code.
canonical: A value of 1 indicates a canonical transcription.
Main Content <text>
The <text> section contains individual segments of spoken speech structured using <u> elements: - <u>: Each <u> element represents a segment of speech and has attributes: - start and end: Start and end time in seconds. - who: Speaker (e.g., “EXAM_1” for the examiner and “CAND_1” for the candidate). - <s>: Each sentence is marked with the <s> element. - <tok>: Token elements whose attributes describe lemma, part of speech, morphological features, and syntactic relations. - <anon/>: Anonymized segment of the recording. - <gap reason="unintelligible"/>: Unintelligible segment of the recording.
Preparation of TEITOK Files
The preparation of TEITOK files took place in several phases:
Preliminary Annotation. In the research associated with the creation of the database, we compared direct manual annotation with manual post-editing of outputs from automatic speech recognition systems. Thus, manual annotation may be based on automatically prepared preliminary annotation. The source of the preliminary annotation is distinguished using the preannot-source attribute, which can have the following values:
from_scratch: Completely manual annotation, i.e., the preliminary annotation is empty.
from_whisperX: Preliminary annotation obtained using the WhisperX system.
from_mixed: Preliminary annotation obtained by randomly combining outputs from four systems at the level of utterances. When the preliminary annotation was not empty, we converted it into the basic version of the TEITOK format. At the end of this phase, the transcriptions contained segments divided into utterances (the <u> elements), assignment of speakers to utterances (the who attribute), and time alignment with the recording (the start and end attributes).
Manual Annotation. After uploading the files, trained annotators performed manual annotation in the TEITOK environment, during which they created or corrected transcriptions, assigned speakers to utterances, and aligned utterances with the recording using timestamps. The recordings were anonymized in accordance with the requirements of the Institute for Language and Preparatory Studies of Charles University (ILPS CU), which provided the audio recordings for the corpus. Some annotators, out of caution, anonymized even data that did not need to be anonymized (e.g., fictitious names).
Revision. Manual review of the manual annotations by a co-author of the database.
Normalization. Automatic adjustment of transcriptions that removes discrepancies in speaker names, orders utterances according to start time, and assigns new sequential IDs to utterances.
Segmentation by Tasks and Selection. The provider of the recordings (ILPS CU) permitted the publication of only selected tasks. We had to cut these from the recordings and adjust timestamps in the transcriptions to preserve the alignment of utterances in the transcription with the recording. We used the FFmpeg tool for cutting the recordings.
Linguistic Annotation. Until this phase, the utterances in the transcriptions had not been further structured. In this phase, we divided the text into sentences (the <s> element) and then into tokens (the <tok> elements). At the token level, the transcriptions are automatically linguistically annotated. Each token is assigned a lemma (the lemma attribute), language-specific morphological tag (the xpos attribute), part of speech, and morphological properties according to the categorization of the Universal Dependencies project (the upos and feats attributes). Additionally, each token is assigned a reference to the parent ID according to dependency syntax rules (the head attribute) and the type of dependency of the token in relation to its parent (the deprel attribute). For linguistic annotation, including tokenization, we used the UDPipe 2 tool, specifically the model czech-pdt-ud-2.12-230717 for Czech. Although it is possible to perform tokenization and automatic linguistic annotation directly in the TEITOK environment, we carried out this process separately. The reason is that the tokenization method in the TEITOK environment differs from the one optimized for UDPipe, which could lead to errors when combining these two steps.
Completion of the TEI Header. Finally, we supplemented the header according to all available metadata to comply with TEI standards.
All tools and scripts (primarily in Python 3 and BASH) are available in the public repository of the project in the data_preparation directory.
Querying, Searching, and Filtering
Rapid querying, searching, and filtering are enabled by the integrated CQP Query Processor, a key component of the IMS Open Corpus Workbench (CWB) toolkit. CQP converts XML-formatted corpora into binary format and efficiently indexes them. Querying in indexed corpora is conducted using the CQL language, which is a standard in corpus linguistics. TEITOK also offers a Query Builder, in which users can specify a query by filling out a form. The results of the query returned from CQP are subsequently processed using TEITOK and presented to the user in a clear format. Query results can be downloaded in XML format.