Skip to content

Commit

Permalink
ajouts
Browse files Browse the repository at this point in the history
  • Loading branch information
emchateau committed Oct 26, 2023
1 parent bf75e7d commit cee8e7e
Show file tree
Hide file tree
Showing 6 changed files with 98 additions and 32 deletions.
16 changes: 13 additions & 3 deletions content/00-introduction.md
Original file line number Diff line number Diff line change
Expand Up @@ -44,6 +44,16 @@ Au terme du cours, l’étudiant·e sera en mesure :

Cet atelier vise à initier les étudiantes et les étudiants aux méthodes d’édition critique avec la Text Encoding Encoding Initiative (TEI), un cadre de travail pour la production d’édition structurée fondé sur le langage de balisage XML (eXtended Markup Language).

Bien évidemment pas le seul standard en vigueur dans ce domaine. Vous avez également eu l’occasion de rencontrer, ou vous allez voir, un certain nombre de formats dédiés à l’édition au cours de cette session tels que EPUB, HTML et XHTML, peut être les formats Dita et DocBook.

Mais plus qu’un format ou un standard, **la TEI est un cadre de travail pour l’édition critique numérique** qui s’avère particulièrement flexible pour toute sorte d’utilisation dans le domaine académique. Au point qu’elle est devenue, en quelque sorte, une *lingua franca* des Digital Humanities, en particulier en Europe. Difficile aujourd’hui d’envisager de produire des contenus textuels dans les humanités numériques sans tenir compte de la TEI.

C’est aussi **l’un des projets les plus anciens et les plus durables des Digital Humanities**, puisque la création de la TEI remonte à 1987 (30 ans !). Elle manifeste l’un des plus grands achèvements de la communauté des humanités numériques comme en témoigne le prix Zampolino que sa communauté a reçu en 2017 à l’occasion de la Conférence mondiale des Humanités numériques à Montréal.

**La TEI c’est donc à la fois, une ontologie générique du texte, une méthode d’édition critique, mais aussi un projet libre et open source adossé à une forte communauté.**

Avec, vous allez l’entrevoir, de nombreux outils développés autour de cette communauté qui permettent d’envisager la création de chaînes éditoriales complètes pour le traitement des éditions.

Au terme du cours, l’étudiant·e sera en mesure :

- d’expliquer les principes de l’édition structurée et la notion de balisage descriptif ;
Expand Down Expand Up @@ -84,7 +94,7 @@ Cette formation est une initiation à XML. Après un rapide présentation du lan

---

## Séance 1 - jeudi 26 octobre 2023 8h30-11h30
## Séance 1 - jeudi 26 octobre 2023 9h30-11h30

- présentation des intervenants et des participant·e·s ;
- le langage de balisage XML et son écosystème ;
Expand All @@ -98,7 +108,7 @@ Cette formation est une initiation à XML. Après un rapide présentation du lan

---

## Séance 3 - jeudi 2 novembre 2023 8h30-11h30
## Séance 3 - jeudi 2 novembre 2023 9h30-11h30

- utilisation de la TEI pour l’édition de sources manuscrites ;
- modélisation d’une édition critique avec la TEI ;
Expand All @@ -110,7 +120,7 @@ Cette formation est une initiation à XML. Après un rapide présentation du lan

---

## Séance 5 - jeudi 9 novembre 2023 8h30-11h30
## Séance 5 - jeudi 9 novembre 2023 9h30-11h30

- outillage de la TEI
- exploiter ses documents avec XSLT ;
Expand Down
48 changes: 39 additions & 9 deletions content/01-balisage.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,6 +8,10 @@

???

Dans cette première partie du cours, nous allons présenter le langage de balisage extensible (eXtensible Markup Language, XML). XML est un format informatique fondamental pour de très nombreuses applications. Il est notamment largement employé dans le domaine des métadonnées culturelles ou pour l’échange d’informations structurées. XML est un métalangage au sens où il définit une syntaxe qui permet de décrire toute sortes de vocabulaires pour les métadonnées.

Ce format occupe une place fondamentale dans le domaine de l’édition structurée en raison de son excellente capacité à prendre en charge la description du texte et de ses sous-composants. Il s’est également largement imposé dans le secteur éditorial en raisons d’un puissant outillage technique qui lui est associé tant pour le contrôle des documents que pour leur transformation. En ce sens, XML offre une infrastructure technique particulièrement adéquate pour l’édition et se retrouve à peu près partout dans les applications industrielles du secteur.

Le domaine des éditions critiques numériques est un secteur en évolution rapide pour lequel il n’existe pas vraiment de norme ou de références uniques. Pour autant, certaines réalisations constituent des références fortes de même que certains standards techniques qui favorisent la convergence à l’instar de la Text Encoding Initiative que nous allons aborder au cours de cette formation.

On pourra se référer à la bibliographie ecdotique traditionnelle, mais aussi à une abondante littérature en langue anglaise sur l’édition numérique.
Expand Down Expand Up @@ -134,6 +138,18 @@ Ici, les critères de qualité d’une édition critique peuvent guider certains

### 1. Pourquoi encoder son édition ?

## Définition des documents structurés

On appelle document structuré, un document dont la structure logique est décrite plutôt que sa mise en forme physique.

> Un document peut être décrit comme une collection d’objets comportant des objets de plus haut niveau composés d’objets plus primitifs. Les relations entre ces objets représentent les relations logiques entre les composants du document. Par exemple [...] un livre est divisé en chapitres, chaque chapitre en sections, sous-sections, paragraphes, etc. Une telle organisation documentaire est appelée représentation de document structuré.
>
> Jacques André, Richard Furuta, Vincent Quint, *Structured documents*, Cambridge University Press, 1989.
---

### 1. Pourquoi encoder son édition ?

## 1.2. L’avantage d’un balisage sémantique
La notion d’encodage :

Expand All @@ -148,7 +164,9 @@ La notion d’encodage :
## Encodage descriptif vs encodage présentationnel

Parce qu’il détermine tous les traitements informatiques qu’il est possible d’effectuer sur le texte, le balisage a historiquement constitué une question fondamentale dans l’histoire de l’informatique. Depuis l’article séminal de Coombs et ses collègues, on a pris l’habitude de distinguer plusieurs types de balisages : procédural, présentationnel, ou encore descriptif.

cf. James H. Coombs, Allen H Renear, et Steven J DeRose. [« Markup Systems and the Future of Scholarly Text Processing »](http:/.html.coverpages.org/coombs.html). **Communications of the ACM**, n° 11, t. 30, 1987, p. 933-947.

La supériorité du balisage descriptif sur les autres types de balisage du texte a clairement été établie depuis quelques années. Un tel balisage présente l’avantage notable d’assurer une meilleure distinction entre le contenu et la forme (et donc de séparer les traitements). Cette distinction garantit une meilleure maintenance du texte encodé et une meilleure portabilité des artefacts numériques.

## La notion d’encodage descriptif
Expand All @@ -161,9 +179,6 @@ La supériorité du balisage descriptif sur les autres types de balisage du text

Très tôt dans l’histoire de l’informatique, on s’est intéressé au problème de la représentation du texte sous forme numérique.

Parce qu’il détermine tous les traitements informatiques qu’il est possible d’effectuer sur le texte, le balisage a historiquement constitué une question fondamentale dans l’histoire de l’informatique. Depuis l’article séminal de Coombs et ses collègues, on a pris l’habitude de distinguer plusieurs types de balisages : procédural, présentationnel, ou encore descriptif.
cf. Coombs, James H, Renear, Allen H, et DeRose, Steven J, [« Markup Systems and the Future of Scholarly Text Processing »](http://xml.coverpages.org/coombs.html), Communications of the ACM, n° 11, t. 30, 1987, p.933-947.
La supériorité du balisage descriptif sur les autres types de balisage du texte a clairement été établie depuis quelques années. Un tel balisage présente l’avantage notable d’assurer une meilleure distinction entre le contenu et la forme (et donc de séparer les traitements). Cette distinction garantit une meilleure maintenance du texte encodé et une meilleure portabilité des artefacts numériques.

## La production d’un balisage descriptif

Expand Down Expand Up @@ -191,8 +206,26 @@ Procédure mise en œuvre lors du **balisage** :
* Sélection des balises
* Réalisation du balisage, marquage de l’élément

```txt
Ceci est un paragraphe contenant une entité.
```

```xml
<para>Ceci est du texte contenant une <entity>entité</entity>.</para>
```

???

Le balisage est une opération au cours de laquelle on ajoute un descripteur au contenu en vue d’un traitement informatique. Un langage à balises est un langage permettant d’associer à un contenu (généralement du texte) des balises explicites (par exemple pour rendre compte de la structure du texte).

**La production d’un balisage descriptif consiste à identifier explicitement la structure sémantique sous-jacente d’un document, cela indépendamment de tout traitement déterminé à l’avance.**

cf. Renear, Allen, Dubin, David, Sperberg-McQueen, C. Michael, et Huitfeldt, Claus, [«&nbsp;XML semantics and digital libraries&nbsp;»](http://dl.acm.org/citation.cfm?id=827140.827192), Proceedings of the 3rd ACM/IEEE-CS joint conference on Digital libraries, p. 303-305, 2003.

**Il s’agit de distinguer explicitement à l’intérieur du texte différents objets éditoriaux en les encadrant par des balises dont le nom peut être arbitraire.**

Ce faisant l’auteur d’un balisage fournit une **information sémantique** et pragmatique suffisante pour produire des vues alternatives sur le document ou bien une édition basée sur la structure du texte.

## Procédure mise en œuvre lors du balisage

Les trois opérations qui interviennent au cours du balisage sont donc les suivantes&nbsp;:
Expand Down Expand Up @@ -901,12 +934,12 @@ La valeur de l’attribut `xml:id` doit être unique dans le contexte du documen

## 3.7. Document bien formé

**On dit d’un document XML qu’il est bien formé quand celui-ci répond à un certain nombre de contraintes**
**On dit qu’un document XML est bien formé quand celui-ci répond à un certain nombre de contraintes**

* concordance entre l’encodage du document et sa déclaration XML&nbsp;;
* existence des fichiers déclarés (déclaration de DTD, déclaration d’entités externes) et concordance entre l’encodage des fichiers entités externes et leur déclaration XML&nbsp;;
* forme des appels d’entités&nbsp;;
* présence de balises ouvrantes et fermantes appariées, imbrication des balises sans chevauchement&nbsp;;
* balises ouvrantes et fermantes appariées, imbrication des balises sans chevauchement, existance d’un élément racine&nbsp;;
* respect des spécifications relatives aux noms XML (noms d’éléments et d’attributs)&nbsp;;
* unicité des attributs dans un même élément, aucun attribut sans valeur&nbsp;;
* forme des commentaires.
Expand All @@ -928,7 +961,4 @@ Le contrôle se fait par analyse syntaxique ou parsing (avec des outils appelés
* L’espace XML francophone&nbsp;: actualités, discussions, articles et billets, sur le site Web [http://xmlfr.org/](http://xmlfr.org/)
* Coombs, James H, Renear, Allen H, et DeRose, Steven J. ["Markup Systems and the Future of Scholarly Text Processing."](http:/.html.coverpages.org/coombs.html) Communications of the ACM 30, no. 11 (1987): 933-947.
* DeRose, Steven J., et al. “What Is Text, Really?” Journal of Computing in Higher Education, vol. 1, no. 2, Dec. 1990, pp. 3–26. Crossref, [doi:10.1007/BF02941632](https://doi.org/10.1007/BF02941632)

---

- Modern XML useful resources https://gist.github.com/emchateau/912e3de4710bd9f385d407a7a576078c
* Modern XML useful resources https://gist.github.com/emchateau/912e3de4710bd9f385d407a7a576078c
16 changes: 8 additions & 8 deletions content/02-schema.md
Original file line number Diff line number Diff line change
Expand Up @@ -93,14 +93,14 @@ Autrement dit, les nœuds qui sont accessibles lors d’une session de travail s
## 1.4. Ordre du document
Description des relations :

- Enfant
- Un élément peut avoir zéro, un ou plusieurs autres éléments enfants. Il peut également avoir des enfants texte, commentaire, et instruction de traitement.
- Les attributs ne sont pas considérés comme les enfants d’un élément
- Un nœud document peut avoir un élément fils (celui qui contiendra tous les autres) mais aussi des fils commentaire, ou instruction de traitement.
- Parent : le parent d’un élément est soit un autre élément soit un nœud document. Le parent d’un attribut est l’élément qui le porte. Attention ! Même si les attributs ne sont pas considérés comme fils des éléments, les éléments sont les parents des attributs !
- Ancêtre : les ancêtres sont les nœuds parents, les parents des parents, etc.
- Descendants : les descendants sont les enfants, petits-enfants, et tous les descendants d’un nœud.
- Sibling : les siblings d’un nœuds sont les autres enfants de son parent. Les attributs ne sont pas considéré comme des siblings.
- `Enfant`
- Un `élément` peut avoir zéro, un ou plusieurs autres éléments enfants. Il peut également avoir des enfants texte, commentaire, et instruction de traitement.
- Les `attributs` ne sont pas considérés comme les enfants d’un élément
- Un `nœud document` peut avoir un élément fils (celui qui contiendra tous les autres) mais aussi des fils commentaire, ou instruction de traitement.
- `Parent` : le parent d’un `élément` est soit un autre `élément` soit un `nœud document`. Le parent d’un `attribut` est l’élément qui le porte. Attention ! même si les attributs ne sont pas considérés comme fils des éléments, les éléments sont les parents des attributs.
- `Ancêtre` : les ancêtres sont les nœuds parents, les parents des parents, etc.
- `Descendants` : les descendants sont les enfants, petits-enfants, et tous les descendants d’un nœud.
- `Sibling` : les siblings d’un nœuds sont les autres enfants de son parent. Les attributs ne sont pas considéré comme des siblings.

<!-- .element style="font-size:0.9em" -->

Expand Down
3 changes: 2 additions & 1 deletion docs/index.html
Original file line number Diff line number Diff line change
Expand Up @@ -16,7 +16,7 @@
<h1>Bienvenue sur le site companion de l’atelier HNU3052/HNU6052 Humanités numériques : Introduction à l’édition critique avec la Text Encoding Initiative (TEI).</h1>
<p>Cette page regroupe les contenus du cours, elle est destinée aux étudiant·e·s qui suivent l’atelier à l’automne 2023.</p>
<p>Contact : Emmanuel Château-Dutier (<a href="mailto:[email protected]">[email protected]</a>)</p>
<!--

<article>
<h2><a href="./seance-01.html">Séance 01</a></h2>
</article>
Expand All @@ -26,6 +26,7 @@ <h2><a href="./exercice01.html">Exercice 01</a></h2>
<article>
<h2><a href="./seance-02.html">Séance 2</a></h2>
</article>
<!--
<article>
<h2><a href="./seance-03.html">Séance 3</a></h2>
</article>
Expand Down
19 changes: 19 additions & 0 deletions plan-de-cours.md
Original file line number Diff line number Diff line change
Expand Up @@ -61,3 +61,22 @@ L’évaluation de l’atelier reposera sur des travaux pratiques d’encodage e
## Bibliographie

{{< bibliography >}}


## Message d’accueil

Bonjour à toutes et à tous,

Je vous souhaite la bienvenue dans l’atelier HNU3052/HNU6052 – Introduction à l’édition critique avec la Text encoding initiative (TEI). J’aurai le plaisir d’être votre enseignant pour cette session.

Cet atelier vise à initier les étudiantes et les étudiants aux méthodes d’édition critique avec la Text Encoding Encoding Initiative (TEI), un cadre de travail pour la production d’édition structurée fondé sur le langage de balisage XML (eXtended Markup Language).

Ce cours ne nécessite aucune compétence technique ou informatique particulière. Vous serez accompagnés tout au long des séances dans les apprentissages.

Notre premier cours aura lieu jeudi 26 octobre à partir de 8h30, à l’Université de Montréal, Pavillon Lionel-Groulx, en salle C-2035 (3150, rue Jean-Brillant, Montréal, QC H3T 1N8).

Vous trouverez le plan de cours sur StudiUM, merci d’en prendre connaissance. La salle de cours est équipée en matériel informatique avec les logiciels que nous utiliserons. Si vous souhaitez travailler en cours sur votre propre ordinateur, je vous invite à télécharger et installer Oxygen depuis la logithèque de l’Université (l’installation pour Mac se trouve à la fin de la liste), https://ti.umontreal.ca/offre-de-services/services-par-categorie/logiciels/logitheque-web/

Au plaisir de faire votre connaissance.

#### Emmanuel Chateau-Dutier
28 changes: 17 additions & 11 deletions plan-detaille.md
Original file line number Diff line number Diff line change
Expand Up @@ -17,17 +17,23 @@ date: 2022-09-29

En synchrone :

- 9h tour de table et présentation du cours (30 minutes)
- 9h30 l’histoire et l’application de XML (15 minutes)
- 9h45 principes de conception du langage XML (10 minutes)
- 9h55 pause (10 minutes)
- 10h05 la syntaxe XML (25 minutes)
- 10h30 exercice : principes et balises XML (questions/réponses) (20 minutes)
- 10h50 pause (10 minutes)
- 11h00 présentation du logiciel oXygen (10 minutes)
- 11h10 exercice : un carnet d’adresse en XML (35 minutes)
- 11h45 bilan de la séance et présentation des exercices (15 minutes)
- 12h fin
- 9h30 tour de table et présentation du cours (30 minutes)
- 10h l’histoire et l’application de XML (15 minutes)
- 10h15 principes de conception du langage XML (10 minutes)
- 10h30 pause (10 minutes)
- 10h40 la syntaxe XML (25 minutes),
- 11h05 exercice : principes et balises XML (questions/réponses) (20 minutes)
- présentation du logiciel oXygen (10 minutes)

Après-midi

- 12h30 exercice : un carnet d’adresse en XML (35 minutes)
- 13h05 : correction 10
- 13h20 : 10 min pause
- 13h30 : Schéma (30 min)
- 14h : TP encodage et utilisation d’un shéma (apprentissage oXygen)
- 15h : bilan de la séance et présentation des exercices (15 minutes)
- 15h30 fin

#### Séance 2
À lire avant la séance :
Expand Down

0 comments on commit cee8e7e

Please sign in to comment.