Un corpus de chansons de geste.
Ki volt oïr chançun de beau semblant
Dunt bien sunt fait les vers par consonant
Ore laist la noise si se treie avant
Dirun la flur de la geste vallant
Les développements présentés ici ont été entrepris dans le cadre de la thèse de doctorat de Jean-Baptiste Camps (Univ. Paris-Sorbonne)[1], et ont été poursuivis collaborativement, en bénéficiant des financements des projets,
- LAKME (Linguistically Annotated Corpora Using Machine Learning Techniques, ENS/EPHE/ENC | PSL; financement PSL, 2016-2018)
- OMÉLiE (Outils et méthodes pour l'édition linguistique enrichie; ENC/ENS; financements Scripta-PSL et DIM «Sciences du texte et connaissances nouvelles»).
[1]: Jean-Baptiste Camps, La Chanson d’Otinel: édition complète du corpus manuscrit et prolégomènes à l’édition critique, thèse de doct., dir. Dominique Boutet, Univ. Paris-Sorbonne, 2016.
Les textes médiévaux sont du domaine public.
Medieval texts are free of known copyright restrictions.
Le reste est mis à disposition selon une licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International (CC BY-SA 4.0).
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Geste: un corpus de chansons de geste, dir. Jean-Baptiste Camps, avec la collab. d'Elena Albarran, Alice Cochet & Lucence Ing, Paris, 2016-…, DOI: 10.5281/zenodo.1744918, http://github.com/Jean-Baptiste-Camps/Geste.
Une version bêta de la publication en ligne est disponible sur le serveur de développement des éditions en ligne de l'École des chartes, http://dev.chartes.psl.eu/elec/geste/.
Les documents, dans leur représentation canonique, sont contenus dans les dossiers:
xml_gold
: textes du corpus geste: éditions numérisées (ed_), transcriptions à nouveaux frais (transcr_), avec annotation linguistique revue;xml_silver
: textes du corpus geste à l'annotation linguistique non revue;xml_src
: documents de travail, notamment sources des transcriptions allographétiques.
Le modèle est contenu dans le dossier:
odd
Les données sont en outre disponibles en format:
tsv
: avec l'annotation linguistique;txt
: exports en texte brut.
L'archive contient également:
css
: des feuilles de style pour les documents xml;doc
: de la documentation sur l'annotation linguistique;dtd
: les entités utilisées pour les éditions allographétiques;xsl
: des feuilles de transformation et exports variés des données.