-
Notifications
You must be signed in to change notification settings - Fork 1
/
npest2_1.Rmd
498 lines (323 loc) · 38.5 KB
/
npest2_1.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
---
output:
html_document: # Classe de documento.
toc: true # Exibir sum?rio.
toc_depth: 2 # Profundidade do sum?rio.
toc_float: # Sum?rio flutuante na borda.
collapsed: true
smooth_scroll: true
number_sections: true # Se??es numeradas.
theme: flatly
#default,cerulean,journal,flatly,readable,spacelab,
#united,cosmo,lumen,paper,sandstone,simplex,yeti
highlight: espresso
#default, tango, pygments, kate, monochrome, espresso, zenburn, haddock, and textmate
#css: styles.css # Caminho para arquivo CSS.
fig_width: 7 # Lagura das figuras.
fig_height: 6 # Altura das figuras.
fig_caption: true # Exibica??o de legenda.
fig_align: 'center'
# code_folding: hide # Esconder/exibir bloco de c?digo.
# keep_md: true # Manter o arquivo md.
#template: quarterly_report.html # Caminho para o template.
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, cache = F)
```
---
<font size="5">
<p align=”center”> <b> Parte 2.1 - Introdução à análise exploratória de dados </b> </center>
</font>
<font size="5">
<p align=”center”> <b> Tabelas de frequência e medidas resumo </b> </center>
</font>
---
# **Análise exploratória**
Parte primordial de qualquer análise estatística é chamada **análise descritiva ou exploratória**. Tal etapa consiste basicamente de resumos numéricos e análises gráficas das variáveis disponíveis em um conjunto de dados. Trata-se de uma etapa de extrema importância e deve preceder qualquer análise mais sofisticada.
Neste material serão apresentados os principais conceitos a respeito de análise exploratória. Na primeira parte será discutido o uso de tabelas de frequência para representação de dados de diferentes naturezas (tabelas de frequência simples, com faixas de valores, conjuntas) e medidas resumo (de posição e dispersão). Na segunda parte, medidas de associação, gráficos e ainda uma breve apresentação do conceito de assimetria.
---
# **Tabelas de frequência**
Utlizando apenas os dados brutos é difícil responder questões de interesse. Para reduzir os dados originais de forma que fique mais claro o entendimento dos mesmos são utilizadas as tabelas de frequência.
No caso de variáveis qualitativas ou quantitativas discretas ela consiste em listar os possíveis valores da variável e fazer a contagem de quantas vezes cada categoria ou valor aparece nos dados brutos. Para variáveis quantitativas contínuas, ou mesmo discretas com grande amplitude, uma alternativa é montar a tabela de frequências utilizando **faixas de valores**. Já para avaliar o as frequências de duas variáveis simultaneamente, as tabelas de dupla entrada são uma alternativa.
---
Os tipos comuns de frequência são:
- Frequência **absoluta**: contagem simples do número de vezes que a categoria ou valor é visto nos dados brutos, usualmente denominado de $n_i$.
- Frequência **relativa**: é a frequência absoluta dividida pelo total, isto é, $f_i = \frac{n_i}{n}$.
- Frequência **acumulada**: soma das frequências relativas, usualmente denotadas por $f_{ac}$.
---
Considerando os dados brutos apresentados na **Parte 1** desta série de materiais, em que um questionário foi aplicado aos alunos do primeiro ano de uma escola (disponível [aqui](https://www.ime.usp.br/~noproest/dados/questionario.txt)) e as seguintes informações foram coletadas para cada indivíduo:
- **Id**: identificação do aluno.
- **Turma**: turma a que o aluno foi alocado (A ou B).
- **Sexo**: F se feminino, M se masculino.
- **Idade**: idade em anos.
- **Alt**: altura em metros.
- **Peso**: peso em quilogramas.
- **Filhos**: número de filhos na família.
- **Fuma**: hábito de fumar, sim ou não.
- **Toler**: tolerância ao cigarro: (I) indiferente; (P) incomoda pouco; (M) incomoda muito.
- **Exerc**: horas de atividade física, por semana.
- **Cine**: número de vezes que vai ao cinema por semana.
- **OpCine**: opinião a respeito das salas de cinema na cidade: (B) regular a boa; (M) muito boa.
- **TV**: horas gastas assistindo TV, por semana.
- **OpTV**: opinião a respeito da qualidade da programação na TV: (R) ruim; (M) média; (B) boa; (N) não sabe.
Exemplos de tabelas de frequência simples para estes dados são:
---
<div align="center">
**Tabela de frequências para a variável gênero (uma variável qualitativa nominal)**
```{r, echo=FALSE}
dados <- read.table("https://www.ime.usp.br/~noproest/dados/questionario.txt", header = T)
freq <- as.data.frame(table(dados$Sexo))
names(freq) <- c("Gênero", "ni")
freq$Gênero <- as.character(freq$Gênero)
freq$fi <- freq$ni/sum(freq$ni)
freq$fac[1] <- freq$fi[1]
freq$fac[2] <- freq$fi[1]+freq$fi[2]
freq[3,] <- c("Total" , sum(freq$ni), sum(freq$fi),sum(freq$fi))
#knitr::kable(freq, align = rep("c", ncol(dados)), caption = "Tabela de frequência para a variável gênero.")
DT::datatable(freq, rownames = FALSE, width = 400, filter = 'none',)
```
---
**Tabela de frequências para a variável idade (uma variável quantitativa discreta)**
```{r, echo=FALSE}
freq2 <- as.data.frame(table(dados$Idade))
names(freq2) <- c("Idade", "ni")
freq2$Idade <- as.character(freq2$Idade)
freq2$fi <- freq2$ni/sum(freq2$ni)
freq2$fac[1] <- freq2$fi[1]
freq2$fac[2] <- freq2$fi[1]+freq2$fi[2]
freq2$fac[3] <- freq2$fi[3]+freq2$fac[2]
freq2$fac[4] <- freq2$fi[4]+freq2$fac[3]
freq2$fac[5] <- freq2$fi[5]+freq2$fac[4]
freq2$fac[6] <- freq2$fi[6]+freq2$fac[5]
freq2$fac[7] <- freq2$fi[7]+freq2$fac[6]
freq2$fac[8] <- freq2$fi[8]+freq2$fac[7]
freq2[9,] <- c("Total" , sum(freq2$ni), sum(freq2$fi),sum(freq2$fi))
#knitr::kable(freq2, align = rep("c", ncol(dados)), caption = "Tabela de frequência para a variável idade.")
DT::datatable(freq2, rownames = FALSE, width = 400)
```
</div>
---
Na prática podemos estar interessados em resumir informações a respeito de uma variável quantitativa discreta que apresente muitos possíveis valores ou ainda uma variável quantitativa contínua, o que significa que é praticamente inviável gerar uma tabela com o valor e número de ocorrências.
Nestas situações uma alternativa consiste na construção de faixas de valores para que seja possível obter um número de classes menor e desta forma seja possível a construção de uma tabela de frequências mais enxuta. Existem técnicas para se calcular o número ideal de faixas, contudo esta quantidade pode ser arbitrária. Em geral recomenda-se utilizar de 5 a 8 faixas de mesma amplitude tendo em vista que um número excessivo de faixas torna a leitura complicada e faixas desiguais podem levar a interpretações equivocadas.
---
Exemplos de tabelas de frequência utilizando faixas de valores:
<div align="center">
**Tabela de frequências para a variável peso (uma variável quantitativa contínua)**
```{r, echo=FALSE}
freq3 <-
data.frame('Peso' = (c('[40, 50)', '[50, 60)', '[60, 70)', '[70, 80)',
'[80, 90)', '[90, 100)', 'Total')),
'ni' = c(sum(dados$Peso >=40 & dados$Peso<50),
sum(dados$Peso >=50 & dados$Peso<60),
sum(dados$Peso >=60 & dados$Peso<70),
sum(dados$Peso >=70 & dados$Peso<80),
sum(dados$Peso >=80 & dados$Peso<90),
sum(dados$Peso >=90 & dados$Peso<100),
0))
freq3$fi <- freq3$ni/sum(freq3$ni)
freq3$fac[1] <- freq3$fi[1]
freq3$fac[2] <- freq3$fi[1]+freq3$fi[2]
freq3$fac[3] <- freq3$fi[3]+freq3$fac[2]
freq3$fac[4] <- freq3$fi[4]+freq3$fac[3]
freq3$fac[5] <- freq3$fi[5]+freq3$fac[4]
freq3$fac[6] <- freq3$fi[6]+freq3$fac[5]
freq3[7,] <- c("Total" , sum(freq3$ni), sum(freq3$fi),sum(freq3$fi))
#knitr::kable(freq3, align = rep("c", ncol(dados)), caption = "Tabela de frequência para a variável peso.")
DT::datatable(freq3, rownames = FALSE, width = 400)
```
---
**Tabela de frequências para a variável TV (uma variável quantitativa contínua)**
```{r, echo=FALSE}
freq4 <-
data.frame('TV' = (c('[0, 6)', '[6, 12)', '[12, 18)', '[18, 24)',
'[24, 36)', 'Total')),
'ni' = c(sum(dados$TV >=0 & dados$TV<6),
sum(dados$TV >=6 & dados$TV<12),
sum(dados$TV >=12 & dados$TV<18),
sum(dados$TV >=18 & dados$TV<24),
sum(dados$TV >=24 & dados$TV<36),
0))
freq4$fi <- freq4$ni/sum(freq4$ni)
freq4$fac[1] <- freq4$fi[1]
freq4$fac[2] <- freq4$fi[1]+freq4$fi[2]
freq4$fac[3] <- freq4$fi[3]+freq4$fac[2]
freq4$fac[4] <- freq4$fi[4]+freq4$fac[3]
freq4$fac[5] <- freq4$fi[5]+freq4$fac[4]
freq4[6,] <- c("Total" , sum(freq4$ni), sum(freq4$fi),sum(freq4$fi))
#knitr::kable(freq4, align = rep("c", ncol(dados)), caption = "Tabela de frequência para a variável TV.")
DT::datatable(freq4, rownames = FALSE, width = 400)
```
</div>
---
Quando estamos interessados em avaliar o comportamento de 2 variáveis podemos construir tabelas de **frequência conjunta**.
Considere uma amostra de 20 alunos em que perguntou-se se eles trabalhavam e qual o número de vestibulares prestados.
$X$: aluno trabalha (sim ou não)
$Y$: nº de vestibulares prestados
Os dados obtidos foram:
```{r, echo=FALSE}
d1 <- data.frame(X= c("X","não","sim","não","não","não","sim","sim","não","sim","sim"),
Y = c("Y",1,1,2,1,1,2,3,1,1,1))
DT::datatable(t(d1), rownames = FALSE, width = 400)
```
---
```{r, echo=FALSE}
d2 <- data.frame(X= c("X",
"não","não","sim","não","sim","não","não","não","sim","não"),
Y = c("Y",2,2,1,3,2,2,2,1,3,2))
DT::datatable(t(d2), rownames = FALSE, width = 400)
```
---
```{r, echo=FALSE}
#<table style="border-collapse:collapse;border-spacing:0;margin:0px auto" class="tg"><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:middle">X</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:middle">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">sim</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">sim</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">sim</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">sim</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">sim</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:middle">Y</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:middle">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">3</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:#000000;text-align:left;vertical-align:top">1</td></tr></table>
#$\\$
#<table style="border-collapse:collapse;border-spacing:0;margin:0px auto" class="tg"><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:middle">X</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:middle">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">sim</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">sim</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">sim</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">não</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:middle">Y</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:middle">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">3</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:left;vertical-align:top">3</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:#000000;text-align:left;vertical-align:top">2</td></tr></table>
#$\\$
```
Note que a variável $X$ é qualitativa nominal com dois níveis: sim ou não. Enquanto $Y$ é uma variável quantitativa discreta. A **tabela de frequência conjunta** de $X$ e $Y$ tem a seguinte forma:
```{r, echo=FALSE}
#<table style="border-collapse:collapse;border-spacing:0;margin:0px auto" class="tg"><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">(X,Y)</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">Frequência</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">(sim,1)</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">4</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">(sim,2)</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">2</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">(sim,3)</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">2</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">(não,1)</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">5</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">(não,2)</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">6</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">(não,3)</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">1</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">Total</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">20</td></tr></table>
```
<div align="center">
```{r, echo=FALSE}
de1 <- data.frame(x = c("(sim,1)",
"(sim,2)",
"(sim,3)",
"(não,1)",
"(não,2)",
"(não,3)",
"Total"),
y = c(4,
2,
2,
5,
6,
1,
20))
DT::datatable(de1, rownames = FALSE, width = 200, colnames = c("(X,Y)", "Frequência"))
```
</div>
$\\$
Um modo mais conveniente de se representar estas informações é através de uma **tabela de dupla entrada**:
```{r, echo=FALSE}
#<table style="border-collapse:collapse;border-spacing:0;margin:0px auto" class="tg"><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">X\Y</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">3</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">Total</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">sim</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">4</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">8</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">5</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">6</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">12</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">Total</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">9</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">8</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">3</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">20</td></tr></table>
```
<div align="center">
```{r, echo=FALSE}
de2 <- data.frame(
x=c("X/Y", "sim", "não", "Total"),
y=c(1,4,5,9),
z=c(2,2,6,8),
w=c(3,2,1,3),
k=c("Total",8,12,20)
)
DT::datatable(de2[-1,], rownames = FALSE, width = 200, colnames = c("X/Y","1","2","3","Total"))
```
</div>
$\\$
A última linha e a última coluna contêm os totais de ocorrências de cada variável, sendo possível assim obter a tabela de frequência individual para cada variável. Uma tabela individual obtida pela de dupla entrada é chamada **tabela marginal de frequência**, ou simplesmente **marginal**. No caso em questão, as marginais são dadas por:
<div align="center">
```{r, echo=FALSE, eval=FALSE}
de2 <- data.frame(
x=c("X", "sim", "não", "Total"),
k=c("Frequência",8,12,20)
)
DT::datatable(de2[-1,], rownames = FALSE, width = 200, colnames = c("X","Frequência"))
```
</div>
```{r, echo=FALSE}
#<table style="border-collapse:collapse;border-spacing:0;margin:0px auto" class="tg"><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">X</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">Frequência</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">sim</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">8</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">não</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">12</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">Total</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">20</td></tr></table>
```
<div align="center">
```{r, echo=FALSE, eval=FALSE}
de2 <- data.frame(
x=c("Y", "1", "2", "3", "Total"),
k=c("Frequência",9,8,3,20)
)
DT::datatable(de2[-1,], rownames = FALSE, width = 200, colnames = c("Y","Frequência"))
```
</div>
```{r, echo=FALSE}
#<table style="border-collapse:collapse;border-spacing:0;margin:0px auto" class="tg"><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">Y</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">Frequência</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">1</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">9</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">2</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">8</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">3</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:middle">3</td></tr><tr><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">Total</td><td style="font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;text-align:center;vertical-align:top">20</td></tr></table>
```
<div align="center">
<table><tr><td>
```{r, echo=FALSE}
de2 <- data.frame(
x=c("X", "sim", "não", "Total"),
k=c("Frequência",8,12,20)
)
DT::datatable(de2[-1,], rownames = FALSE, width = 200, colnames = c("X","Frequência"), caption = "Marginal X")
```
</td><td> </td><td>
```{r, echo=FALSE}
de2 <- data.frame(
x=c("Y", "1", "2", "3", "Total"),
k=c("Frequência",9,8,3,20)
)
DT::datatable(de2[-1,], rownames = FALSE, width = 200, colnames = c("Y","Frequência"), caption = "Marginal Y")
```
</td></tr></table>
</div>
Variáveis de qualquer natureza podem ter seu comportamento conjunto representado através de tabelas de frequência.
---
# **Medidas resumo**
As medidas resumo buscam sumarizar a informação disponível sobre o comportamento de uma variável através de representações numéricas. Existem medidas de **posição** e de **dispersão**.
---
## **Medidas de posição** {.tabset .tabset-fade}
As medidas de posição ou tendência central são medidas resumo obtidas a partir de uma série de valores com o objetivo de mostrar em que valor se concentram os dados observados. Dentre estas medidas destacam-se: a **média**, **mediana** e **moda** dos dados.
---
### **Média**
Considere uma variável $X$ com observações representadas por $x_1,x_2,...x_n$. A média ($\bar{x}$) é dada pela soma dos valores dividida pelo número de elementos. Isto é:
$$\bar{x} = \frac{\sum_{i=1}^{n}x_i}{n}$$
Ou ainda, pode-se obter a média para um conjunto de dados organizado numa tabela de frequências da seguinte forma:
$$\bar{x} = \sum_{i=1}^{n} \frac{n_i}{n}x_i$$
---
### **Quartis e Mediana**
Para cáclulo de quartis($Q_i$) e mediana ($md$) a partir da tabela de dados brutos precisamos ordenar as observações para selecionar os valores que dividem os dados nas proporções desejadas.
Se o número de observações for par, a mediana será o ponto médio dos dois valores centrais, se for ímpar, a mediana será o valor que ocupa a posição central dos dados ordenados. A mediana divide o conjunto de dados ao meio, ou seja, 50% dos valores estão acima e 50% estão abaixo.
Para obter os quartis basta repetir o procedimento com os dois subconjuntos gerados na obtenção da mediana. Assim obtém-se 3 valores: o primeiro quartil ($Q_1$) que marca onde estão 25% dos dados, o segundo quartil ($Q_2$ ou $md$) que marca onde estão 50% dos dados e o terceiro quartil ($Q_3$) que marca 75% dos dados.
---
### **Moda**
A moda ($Mo$) é o valor mais frequente, isto é, aquele com maior probabilidade de ocorrência.
---
### Comentário
Na prática, estas medidas possuem vantagens e desvantagens. Caso haja valores discrepantes a média é uma medida altamente influenciada, o que não acontece com a moda e a mediana. Já a mediana é difícil de ser obtida quando existem muitos dados, dado que o processo de ordenação é custoso. Já a dificuldade com a moda surge quando trabalha-se com distribuições multimodais, isto é diversos valores tem a mesma frequência de ocorrência.
---
## **Medidas de dispersão** {.tabset .tabset-fade}
As medidas de posição por si só não são de grande valia para tirarmos conclusões preliminares a respeito de um conjunto de dados. Há a necessidade de aliar as medidas de posição a quantidades que mensurem a variabilidade. Desta forma precisamos obter uma medida de posição, que nos dá uma ideia de centro dos dados; e uma medida de dispersão, que nos dá uma noção de quão dispersos são os dados.
Lembre-se que conjuntos de dados com diferentes valores podem gerar as mesmas medidas de posição, contudo um pode ser mais disperso que o outro. Tome como exemplo a média entre 5 valores:
1. Se os valores obervados foram {5,5,5,5,5}, a média é 5.
1. Se os valores obervados foram {5,0,10,1,9}, a média é 5.
1. Se os valores obervados foram {7,3,3,8,4}, a média é 5.
1. Se os valores obervados foram {0,1,1,5,18}, a média é 5.
Note como o comportamento interno dos dados varia mas a medida de posição central coincide. Note também como no primeiro caso os 5 valores são idênticos, ou seja, não há dispersão. No entanto note como no quarto caso os valores estão entre 0 e 18, portanto há uma grande dispersão nestes dados. As medidas de dispersão mais utilizadas são: **Amplitude**, **Desvio**, **Variância**, **Desvio Padrão**, **Coeficiente de Variação**.
---
### **Amplitude**
A amplitude referente a uma certa variável, é definida como a diferença entre o maior e o menor valor.
$$\Delta = max-min$$
Muitas vezes esta medida não é conveniente pois só leva em conta dois valores de todo o conjunto.
---
### **Desvio**
A ideia é considerar o desvio de cada observação a um valor de referência e então tomar a média destes desvios. Como valor de referência, destaca-se o uso da média, no entanto outras medidas podem ser usadas, como a mediana.
$$desvio \ médio = \frac{\sum_{i=1}^{n} |x_i-\bar{x}|}{n} $$
---
### **Variância**
No cálculo da variância de um conjunto de dados, ao invés de usar os desvios, utiliza-se a soma dos quadrados dos desvios.
$$var = \frac{\sum_{i=1}^{n} (x_i-\bar{x})^2}{n} $$
ou ainda
$$var = \frac{\sum_{i=1}^{n} (x_i^2-\bar{x}^2)}{n}$$
Note que por utilizar a soma dos desvios ao quadrado, esta medida não fica numa unidade conveniente.
---
### **Desvio Padrão**
Para manter a mesma unidade dos dados originais, é conveniente utilizar o desvio padrão, trata-se da raiz quadrada da variância.
$$dp=\sqrt{var}$$
---
### **Coeficiente de Variação**
O coeficiente de variação é dado por
$$cv = \frac{dp}{\bar{x}}$$
Note que como a média está no denominador, ela não pode ser 0. Além disso esta medida é adimensional e, em geral, é apresentada em forma de porcentagem.
---
Críticas e sugestões a este material sempre serão bem vindas.
Para entrar em contato comigo, envie uma mensagem para <[email protected]>.
---
<div class="tocify-extend-page" data-unique="tocify-extend-page" style="height: 0;"></div>