diapos/ex01-analyse.html

<!DOCTYPE HTML>
<html>
   <head>
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
      <title>Programme</title>
      <link href="themes/remark-dark.css" rel="stylesheet" media="all" type="text/css">
   </head>
   <body><textarea id="source">
title: Analyse et modélisation des textes
description: Lou Burnard Consulting, emchateau
theme: theme/remark-dark-em.css
name: inverse
layout: true
class: inverse

---
class: center middle
name: index


# TP01 Analyse et modélisation des textes

.footnote[[Répertoire GitHub](https://github.com/publicarchitectura/initiationTEI) | [Programme](00-programme.html#6)]
![test](images/logo.svg)

---
layout: false

### Comme nous le rappelle Magritte...
![](../images/ceci-nest-pas-une-pipe.jpg)
.footnote[
À chaque fois que créée une représentation d’un texte ou d’autre chose, une image non réductible à la réalité.
]

---


# Numériser et encoder...

- La numérisation nous propose une image, une représentation d’un objet déjà existant

- L'encodage nous permet de représenter l’image des idées résultant de ces représentations

.footnote[
Une distinction fine mais très importante.
]

---


# Des idées sur quoi&nbsp;?

Tout! mais on peut distinguer plusieurs axes...
* informationss « intrinsèques » à l'objet : les formes, couleurs, etc. d'une image; les sons, rythmes, etc. d'une musique; les structures linguistiques (mot, phrase, paragraphe) ou formels (chapitre, titre, nom de lieu) d'un texte...

* infos « extrinsèques » ou « meta » sur l'objet : son type, ses origines, ses buts, ses usages ...

* infos « interprétatives »: la portée d'un texte ou d'un dessin, le programme d'une musique ou d'un rite...


distinctions floues mais pervasives...

.footnote[
L’essentiel est de faire le choix. Peut distinguer des actes, des informations intrinsèques à un objet, etc. Des informations dite méta, extrinsèques qui ne sont pas nécessairement présentes dans l’objet&nbsp;: ses origines, ses buts, etc. Enfin, des informations interprétatives.
]

---


# Modélisation et structuration

Il existe (quelques) méthodes classiques d'analyses de données. L'important c'est de comprendre:
* toute méthode ne serait qu'une modélisation

* la modélisation devrait faire ressortir la structuration essentielle d'un objet complexe


Après une modélisation, on peut donner une implémentation informatisée&nbsp;; sans modèle, une implémentation risque d’être incompréhensible et aléatoire, inutile…

.footnote[
Ce que va vouloir faire, c’est modéliser. Pourquoi conduire cette étape, c’est que cela permettra de donner une implémentation informatisée. Si vous n’êtes pas conscient de votre modèle, vous risquer d’avoir une implémentation inconsistante ou incompréhensible qui ne sera pas exploitable.
]

---


# Analyse des données classique

On identifie…
* les objets d’intérêt

* leurs attributs/propriétés

* les relations entre objets

* les procédures/traitements essentiels envisagés


.footnote[
Dans l’analyse de données classique, on avait l’idée qu’il serait possible de conceptualiser l’ensemble de l’univers d’une entreprise. On identifie toute de suite les objets d’intérêt, leurs attributs et propriétés, etc.

On peut également appliquer ce modèle dans notre cas. Vous savez tous ce qu’est qu’une carte postale.
]

---


# Analyse des documents

* quels sont les unités que nous pourrions vouloir traiter&nbsp;?

* comment sont-ils structures (quels composants, quels attributs)?

* est-ce que les occurrences de ces objets sont clairement identifiables dans un flux de texte?

Essayons cela avec le document qui nous occupe&nbsp;:

.footnote[
Je vous propose avec l’exercice qui vient de vous même identifier un certain nombre de choses.
]

---
<!-- background-image: url(../exercices/acteRoyal.jpg) -->

# Acte royal, que faut-il encoder&nbsp;?

Regarder bien votre document. Supposer que vous en avez quelques centaines d’autres du même genre.

* Comment votre document s’organise-t-il&nbsp;?

* Quels sont ses composants essentiels, communs a tous ces documents&nbsp;?

* Quels sont ses composants intéressants, qui pourraient apparaître dans tous ces documents&nbsp;?

* Sauriez vous faire en sorte qu’une autre personne reconnaisse les mêmes objets&nbsp;?

* Faire une liste de tous les objets et propriétés essentiels de votre document

* Justifiez cette liste&nbsp;!

.footnote[
L’une des leçons de cet exercice, c’est que l’on ne peut pas encoder mécaniquement un texte. Il est toujours intéressant de voir une personne prendre un document et se l’approprier.
]

---


# Encodage du document

À partir de votre analyse du document proposez un encodage du document

* Marquez les saut de ligne avec `&lt;lb&gt;`

* Encodez les abbréviations

* Encodez les noms de personnes, de lieux, les dates

* Traitez les signatures

* Trouvez une manière de représenter la structure du texte
</textarea><script src="js/remark-0.6.5.min.js" type="text/javascript"></script><script type="text/javascript">
        var hljs = remark.highlighter.engine;
      </script><script src="remark.language.js" type="text/javascript"></script><script type="text/javascript">
        var slideshow = remark.create({
        highlightStyle: 'monokai',
        highlightLanguage: 'remark'
        }) ;
      </script></body></html>