-
Notifications
You must be signed in to change notification settings - Fork 0
/
AGD et questions ouvertes.qmd
372 lines (242 loc) · 12.3 KB
/
AGD et questions ouvertes.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
---
title: "Concepts de statistique textuelle"
format:
revealjs:
theme: style.scss
scrollable: true
smaller: true
editor:
markdown:
wrap: 72
---
## Contenu de cette présentation
- Les concepts de la statistique textuelle Corpus et Tableaux lexicaux
Méthodologie embarquée
- Application avec des réponses à une question ouverte issue de
l'enquête "[Populations, Espaces de Vie,
Environnements](https://data.ined.fr/index.php/catalog/41)"
(Collomb, Guerin-Pace, Ined, 1992)
- Illustrations à partir de Garnier B., Guérin-Pace F. 2010 -
Appliquer les méthodes de la statistique textuelle, \[[Ceped, les
clefs
pour](http://www.ceped.org/fr/publications-ressources/editions-du-ceped-1988-2012/les-clefs-pour/article/appliquer-les-methodes-de-la)\],
Paris
------------------------------------------------------------------------
## Enjeux de la statistique (textuelle)
- **Explorer** : *faire naître des idées*, détecter des similitudes,
des différences, des anomalies ...
- **Résumer** les données à l'aide d'indicateurs, de profils ...
- **Trouver des structures**
- **Présenter** des résultats ...
------------------------------------------------------------------------
![](images/carme2011.png){fig-align="left" width="178"}
The word cloud on the cover design is based on the words of all the
abstarcts of this CARME conference (2011), so in a certain sense, it 's
an analysis (most frequent words, an size related to frequency), Michael
Greenacre
------------------------------------------------------------------------
## Les données textuelles
L'ensemble de textes sur lesquels se base l'étude est le **corpus**
Une **question ouverte** est une question posée sans grille de réponse
préétablie, dont la réponse peut être numérique ou textuelle (Lebart,
Salem 1994)
Dans ce cas, l'**unité textuelle** est la réponse
Ici les textes sont composés de *quelques "mots"*, ils sont **courts**
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## L'analyse des données
![](images/im_benzecri.png){fig-align="center" height="500"}
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## La lexicométrie
Ensemble de méthodes permettant d'opérer des réorganisations unités
textuelles et des analyses statistiques portant sur le vocabulaire d'un
corpus de texte (Lebart & Salem, 1994, p.135)
- Calcul de répartitions (*occurrences*). *Quels sont les textes les
plus semblables en ce qui concerne le vocabulaire et la fréquence
des formes utilisées ?*
- Calcul de **spécificités**. *Quelles sont les formes qui
caractérisent chaque texte, par leur présence ou leur absence?*
- Détection de **cooccurrences** au moyen de l'analyse géométrique des
données pour faire émerger des thématiques **sans a priori**
Les méthodes s'appliquent à des corpus qui diffèrent par leur nature
mais qui sont transformés en tableaux de même structure : les **tableaux
lexicaux**
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Afficher des concordances
Le **concordancier** : indispensable tout au long d'une analyse
![](images/im_concordancier_lexico3.png){fig-align="center"
height="500"}
Ensemble des lignes de contexte se rapportant à un même "mot"
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Usage croissant de la statistique textuelle
![](images/im_chronologie.png){fig-align="center" width="804"}
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Collecter corpus et métadonnées
Les questionner, les contextualiser : disponibilités/droits, sources,
limites...
Les *nettoyer*, normaliser, corriger = étape de l'analyse *à ne pas
sous-estimer*
Diffère selon les types de corpus (questions ouvertes, entretiens,
romans, articles, pages Web etc..)
Ex. : encodage, orthographe, abreviations ...
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Exemple de question ouverte dans un questionnaire
![](images/im_pee.png){fig-align="center" height="500"}
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Le tableau lexical entier (TLE)
Tableau à double entrée dont les lignes sont constituées par les unités
de texte et les colonnes les "mots" du corpus
![](images/TLE_PEE_o.png){fig-align="center"}
Tableaux dits *hyper-creux*. Présence/absence de **mots** dans les
textes (Valeur positive ou nulle)
L'ordre des mots n'est pas pris en compte (sacs de mots)
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Les occurrences
Le calcul d'**occurrences** revient à s'intéresser à la *forme* des
textes en faisant abstraction de leur structure. Les *mots* vont
constituer le dictionnaire ou **lexique** associé au corpus et
deviennent des descripteurs : les *termes*
![](images/liste_voc_pee.png){fig-align="center" height="400"}
Lecture des mots par ordre de fréquence/ *occurrence et* ordre
*alphabétique*
[![](images/im_back.png){fig-align="right" width="20"
height="21"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## La lemmatisation
Réduire la *taille* du lexique.
= rattacher un ou plusieurs mots à une forme dite racine (Lebart &
Salem, 1994) Convertir :
- les formes verbales à l'infinitif
- les substantifs au singulier
- les adjectifs au masculin singulier
Opération **automatisée** avec des dictionnaires et/ou manuelle
Les "mots" ou formes graphiques deviendront alors des *formes racine*,
*lemmes*, *termes* ...
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](https://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Repérer automatiquement les cooccurrences
------------------------------------------------------------------------
## Analyse des correspondances sur tableau lexical entier
Les plans factoriels permettent de visualiser des proximités de mots,
des oppositions et ainsi de repérer des **champs lexicaux**
![](images/spgeo_0046-2497_1998_num_27_1_T1_0044_0000_1.png){fig-align="center"
width="653"}
Deux mots sont d'autant plus proches que leurs contextes d'utilisation
se ressemblent et d'autant plus éloignés qu'ils sont rarement utilisés
ensemble
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](http://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Classification sur Tableau Lexical
*Obtenir un classement des unités de textes en fonction de la
ressemblance ou de la dissemblance des mots dans ces textes et
d'ordonner les textes en cernant les homologies et les oppositions*
(Rouré, Reinert, 1993)
![](images/spgeo_0046-2497_1998_num_27_1_T1_0046_0000_1.png){fig-align="center"
width="447"}
Méthode *Alceste* ( Reinert, 1983), aujourd'hui implantée dans le
*package Rainette* (J. Barnier)
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](http://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Mettre en relation mots et métadonnées
Utiliser les caractéristiques ou *métadonnées* des textes pour repérer
des structures.
On *partitionne* le corpus selon les modalités de variables qualitatives
------------------------------------------------------------------------
## Les spécificités
Utilisation d'un test pour dire si l'écart entre la fréquence relative
d'une forme dans une partition (*par modalité*) et la fréquence globale
calculée sur l'ensemble des réponses est significatif ou non
![](images/specif.png){fig-align="center" width="715"}
Les *mots ou textes caractéristiques* de ces partitions sont restitués
selon leur degré de spécificité
[![](images/im_back.png){fig-align="right" width="19"
height="20"}](http://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Le tableau lexical agrégé (TLA)
Tableau de *contingence* qui croise les *mots* du lexique et les
*modalités* des métadonnées
![](images/im_TLA2.png)
[![](images/im_back.png){fig-align="right" width="20"
height="21"}](http://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Analyse des correspondances sur un Tableau Lexical Agrégé
Le plan factoriel permet d'observer la position réciproque des "mots" et
des métadonnées et de faire émerger des champs lexicaux propres à des
sous-populations
![](images/spgeo_0046-2497_1998_num_27_1_T1_0050_0000_1.png){width="662"}
[![](images/im_back.png){fig-align="right" width="20"
height="21"}](http://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Affiner l'analyse
- Supprimer certains mots
- Personnaliser la lemmatisation
- Augmenter le nombre de classes
- Analyser des sous-corpus ...
[![](images/im_back.png){fig-align="right" width="20"
height="21"}](http://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Liste (non exhaustive) d'outils
![](images/im_outils.png){fig-align="center"}
Logiciels *historiques* (Spad, Lexico, Alceste, Hyperbase) aujourd'hui
écrits *à partir de R* (tm, R.temis, TXM, Quanteda, IRaMuteQ ou
Xplortext ....), voir page Ressources
[![](images/im_back.png){fig-align="right" width="20"
height="21"}](http://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Package tm (Text Mining) de R
Feinerer, Hornik, Meyer Wirtschaftsuniversity de Wien, in Journal of
Statistical Software (Mars 2008)
- Construction de tableaux lexicaux (**Document Term Matrix**),
comptage de mots, calcul d'associations, ... = fonctions de tm
- Rapporte les mots à leurs radicaux (stemming) ou supprime les mots
outils (i.e articles) = options de tm
------------------------------------------------------------------------
## Package R.temis de R
Facilite les étapes essentielles de l'analyse textuelle en s'appuyant au
maximum sur les packages existants (tm, FactoMineR, explor, igraph...)
\[ [R.temis](https://rtemis.hypotheses.org/) \] :
- importation de corpus au format .csv, .txt
- suppression des mots vides, lemmatisation modifiable,
- calcul d'occurrences, nuage de mots,
- calcul de spécificités,
- détection de cooccurrences,
- recherche de concordances,
- analyse des correspondances et classification,
- graphes de mots
[![](images/im_back.png){fig-align="right" width="20"
height="21"}](http://benegarbi.github.io/AGD_QO/)
------------------------------------------------------------------------
## Quali + Quanti + Viz
Calculs statistiques appliqués à des **corpus**
- Chiffres & Mots : **Occurrences & Cooccurrences**, ...
- Calcul de **spécificités**, de profils ...
- **Visualisations** : nuages de mots, graphe de mots, plan factoriels
(Analyse des correspondances), dendrogrammes (classifications)
Aides à l'interprétation indispensables : les **concordances**
------------------------------------------------------------------------
## La statistique textuelle
- Analyse de données non structurées
- Exploration de données textuelles autrement - sans a priori
- Complémentarité des méthodes (qualitative/quantitative)
- Utilisation conjointe de l'informatique tout-automatique et de
l'intuition humaine
[![](images/im_back.png){fig-align="left" width="20"
height="21"}](http://benegarbi.github.io/AGD_QO/)