Skip to content
Sijmen1 edited this page Feb 5, 2019 · 5 revisions

Simpele Begrippen:

Gestructureerde data: data die al georganiseerd is. Dit zijn meestal files zoals XML of systemen als databases.

Ongestructureerde data: Data die ongeorganiseerd is; denk hierbij aan Facebook of een blog.

Data mining: data onderzoeken op zoek naar patronen.

Proces monitoring: een proces over langere tijd in de gaten houden om te zorgen dat het blijft werken/verbeterd wordt.

Beschrijvende statistiek: Verzamelen van populatie via kerngetallen

Inductiefe statistiek: Voorspellingen aan de hand van beschrijvende statistiek.


OnderzoeksVraag: Wat wil je weten na het onderzoek

Hypothese: een stelling waarbij je het eindresultaat probeert te voorspellen voordat het onderzoek start.

Test: Hier beschrijf je hoe je gaat testen en hoe anderen jou resultaat kunnen reproduceren. Je voert vervolgens de test uit en schrijft de resultaten op in het onderzoek resultaat.

Onderzoek resultaat: zie test.

Rapport: een versimpelde versie van je resultaten voor algemene leesbaarheid. __ Gemiddelde: gemiddelde waarde in lijst van gegevens(gedetailleerde beschrijving onder)

Mediaan: middelste waarde in een gesorteerde lijst van gegevens(gedetailleerde beschrijving onder)

Modus: meest voorkomende waarde in lijst van gegevens (gedetailleerde beschrijving onder)


R: Data analyse programma

Jupyter notebook: Data analyse programma, onderdeel van anaconda.

SAS: Data analyse programma.


Kwalitatieve meetwaardes: Meetwaardes zonder directe numerieke waarde, een rood is bijvoorbeeld niet 2 blauw.

Kwantitatieve meetwaardes: Meetwaardes met directe numerieke waarde.

Hiërarchie: Pikorde

Nominale meetwaardes: kwalitatief, Compleet abstracte waarde(kleur/fruit/plantensoort)

ordinale meetwaardes: kwalitatief, Abstracte waardes met hiërarchie(Opleidingsniveau/ Legerrank)

Discrete meetwaardes: kwantitatief, tel waardes, kunnen niet elk nummer zijn(aantal kinderen dat iemand heeft/ geldwaarde van goud in kilogram)

Continue meetwaarde zit op een schaal en kan elke waarde hebben(gewicht in kilogram)

Wat is data Science

Het leren van het opnemen van grote hoeveelheden data en deze te analyseren via de computer. Dit is essentieel voor bedrijven zoals bol.com of Facebook om te werken.

Statistiek

We moeten weten wat voor gegevens er bestaan en deze gegevens kunnen we gebruiken om data te onderzoeken.

Aan de hand van dit bepalen we betrouwbaarheid

soorten statistiek

Beschrijvende statistiek: Verzamelen van populatie via kerngetallen

Inductiefe statistiek: Voorspellingen aan de hand van beschrijvende statistiek.

Centrummaat

Centrumaat(gemiddelde): Som van meetwaardes gedeeld door/aantal meetwaardes

Met NumPy = np.mean voor gemiddelde in

Andere term is balanceerpunt

Werkt

Mediaan

Getallen of nominale niveaus.

de middelste waardes in een gesorteerde lijst met getallen

[19,13,4,2,1]

Mediaan = 4;

uitschieters

Voorspellen wat het verlies van volgend jaar is. een meetwaarde wijkt sterk af, dit is een uitschieter en moet mogelijk genegeerd worden. Soms is het van belang om uitschieters als nog mee te rekenen.

Modus

Meest voorkomende waarden

11 2222 333

2 = modus want hij komt 4 keer vol.

Antwoorden

[a, b, a, a, a,a]

A= modus

Vooral handig voor kwalitatieve meetwaardes.