-
Notifications
You must be signed in to change notification settings - Fork 0
/
ex01-analyse.html
168 lines (102 loc) · 5.32 KB
/
ex01-analyse.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
<!DOCTYPE HTML>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>Programme</title>
<link href="themes/remark-dark.css" rel="stylesheet" media="all" type="text/css">
</head>
<body><textarea id="source">
title: Analyse et modélisation des textes
description: Lou Burnard Consulting, emchateau
theme: theme/remark-dark-em.css
name: inverse
layout: true
class: inverse
---
class: center middle
name: index
# TP01 Analyse et modélisation des textes
.footnote[[Répertoire GitHub](https://github.com/publicarchitectura/initiationTEI) | [Programme](00-programme.html#6)]
![test](images/logo.svg)
---
layout: false
### Comme nous le rappelle Magritte...
![](../images/ceci-nest-pas-une-pipe.jpg)
.footnote[
À chaque fois que créée une représentation d’un texte ou d’autre chose, une image non réductible à la réalité.
]
---
# Numériser et encoder...
- La numérisation nous propose une image, une représentation d’un objet déjà existant
- L'encodage nous permet de représenter l’image des idées résultant de ces représentations
.footnote[
Une distinction fine mais très importante.
]
---
# Des idées sur quoi ?
Tout! mais on peut distinguer plusieurs axes...
* informationss « intrinsèques » à l'objet : les formes, couleurs, etc. d'une image; les sons, rythmes, etc. d'une musique; les structures linguistiques (mot, phrase, paragraphe) ou formels (chapitre, titre, nom de lieu) d'un texte...
* infos « extrinsèques » ou « meta » sur l'objet : son type, ses origines, ses buts, ses usages ...
* infos « interprétatives »: la portée d'un texte ou d'un dessin, le programme d'une musique ou d'un rite...
distinctions floues mais pervasives...
.footnote[
L’essentiel est de faire le choix. Peut distinguer des actes, des informations intrinsèques à un objet, etc. Des informations dite méta, extrinsèques qui ne sont pas nécessairement présentes dans l’objet : ses origines, ses buts, etc. Enfin, des informations interprétatives.
]
---
# Modélisation et structuration
Il existe (quelques) méthodes classiques d'analyses de données. L'important c'est de comprendre:
* toute méthode ne serait qu'une modélisation
* la modélisation devrait faire ressortir la structuration essentielle d'un objet complexe
Après une modélisation, on peut donner une implémentation informatisée ; sans modèle, une implémentation risque d’être incompréhensible et aléatoire, inutile…
.footnote[
Ce que va vouloir faire, c’est modéliser. Pourquoi conduire cette étape, c’est que cela permettra de donner une implémentation informatisée. Si vous n’êtes pas conscient de votre modèle, vous risquer d’avoir une implémentation inconsistante ou incompréhensible qui ne sera pas exploitable.
]
---
# Analyse des données classique
On identifie…
* les objets d’intérêt
* leurs attributs/propriétés
* les relations entre objets
* les procédures/traitements essentiels envisagés
.footnote[
Dans l’analyse de données classique, on avait l’idée qu’il serait possible de conceptualiser l’ensemble de l’univers d’une entreprise. On identifie toute de suite les objets d’intérêt, leurs attributs et propriétés, etc.
On peut également appliquer ce modèle dans notre cas. Vous savez tous ce qu’est qu’une carte postale.
]
---
# Analyse des documents
* quels sont les unités que nous pourrions vouloir traiter ?
* comment sont-ils structures (quels composants, quels attributs)?
* est-ce que les occurrences de ces objets sont clairement identifiables dans un flux de texte?
Essayons cela avec le document qui nous occupe :
.footnote[
Je vous propose avec l’exercice qui vient de vous même identifier un certain nombre de choses.
]
---
<!-- background-image: url(../exercices/acteRoyal.jpg) -->
# Acte royal, que faut-il encoder ?
Regarder bien votre document. Supposer que vous en avez quelques centaines d’autres du même genre.
* Comment votre document s’organise-t-il ?
* Quels sont ses composants essentiels, communs a tous ces documents ?
* Quels sont ses composants intéressants, qui pourraient apparaître dans tous ces documents ?
* Sauriez vous faire en sorte qu’une autre personne reconnaisse les mêmes objets ?
* Faire une liste de tous les objets et propriétés essentiels de votre document
* Justifiez cette liste !
.footnote[
L’une des leçons de cet exercice, c’est que l’on ne peut pas encoder mécaniquement un texte. Il est toujours intéressant de voir une personne prendre un document et se l’approprier.
]
---
# Encodage du document
À partir de votre analyse du document proposez un encodage du document
* Marquez les saut de ligne avec `<lb>`
* Encodez les abbréviations
* Encodez les noms de personnes, de lieux, les dates
* Traitez les signatures
* Trouvez une manière de représenter la structure du texte
</textarea><script src="js/remark-0.6.5.min.js" type="text/javascript"></script><script type="text/javascript">
var hljs = remark.highlighter.engine;
</script><script src="remark.language.js" type="text/javascript"></script><script type="text/javascript">
var slideshow = remark.create({
highlightStyle: 'monokai',
highlightLanguage: 'remark'
}) ;
</script></body></html>