-
Notifications
You must be signed in to change notification settings - Fork 0
Les 1:
Gestructureerde data: data die al georganiseerd is. Dit zijn meestal files zoals XML of systemen als databases.
Ongestructureerde data: Data die ongeorganiseerd is; denk hierbij aan Facebook of een blog.
Data mining: data onderzoeken op zoek naar patronen.
Proces monitoring: een proces over langere tijd in de gaten houden om te zorgen dat het blijft werken/verbeterd wordt.
Beschrijvende statistiek: Verzamelen van populatie via kerngetallen
Inductiefe statistiek: Voorspellingen aan de hand van beschrijvende statistiek.
OnderzoeksVraag: Wat wil je weten na het onderzoek
Hypothese: een stelling waarbij je het eindresultaat probeert te voorspellen voordat het onderzoek start.
Test: Hier beschrijf je hoe je gaat testen en hoe anderen jou resultaat kunnen reproduceren. Je voert vervolgens de test uit en schrijft de resultaten op in het onderzoek resultaat.
Onderzoek resultaat: zie test.
Rapport: een versimpelde versie van je resultaten voor algemene leesbaarheid. __ Gemiddelde: gemiddelde waarde in lijst van gegevens(gedetailleerde beschrijving onder)
Mediaan: middelste waarde in een gesorteerde lijst van gegevens(gedetailleerde beschrijving onder)
Modus: meest voorkomende waarde in lijst van gegevens (gedetailleerde beschrijving onder)
R: Data analyse programma
Jupyter notebook: Data analyse programma, onderdeel van anaconda.
SAS: Data analyse programma.
Kwalitatieve meetwaardes: Meetwaardes zonder directe numerieke waarde, een rood is bijvoorbeeld niet 2 blauw.
Kwantitatieve meetwaardes: Meetwaardes met directe numerieke waarde.
Hiërarchie: Pikorde
Nominale meetwaardes: kwalitatief, Compleet abstracte waarde(kleur/fruit/plantensoort)
ordinale meetwaardes: kwalitatief, Abstracte waardes met hiërarchie(Opleidingsniveau/ Legerrank)
Discrete meetwaardes: kwantitatief, tel waardes, kunnen niet elk nummer zijn(aantal kinderen dat iemand heeft/ geldwaarde van goud in kilogram)
Continue meetwaarde zit op een schaal en kan elke waarde hebben(gewicht in kilogram)
Het leren van het opnemen van grote hoeveelheden data en deze te analyseren via de computer. Dit is essentieel voor bedrijven zoals bol.com of Facebook om te werken.
We moeten weten wat voor gegevens er bestaan en deze gegevens kunnen we gebruiken om data te onderzoeken.
Aan de hand van dit bepalen we betrouwbaarheid
Beschrijvende statistiek: Verzamelen van populatie via kerngetallen
Inductiefe statistiek: Voorspellingen aan de hand van beschrijvende statistiek.
Centrumaat(gemiddelde): Som van meetwaardes gedeeld door/aantal meetwaardes
Met NumPy = np.mean voor gemiddelde in
Andere term is balanceerpunt
Werkt
Getallen of nominale niveaus.
de middelste waardes in een gesorteerde lijst met getallen
[19,13,4,2,1]
Mediaan = 4;
Voorspellen wat het verlies van volgend jaar is. een meetwaarde wijkt sterk af, dit is een uitschieter en moet mogelijk genegeerd worden. Soms is het van belang om uitschieters als nog mee te rekenen.
Meest voorkomende waarden
11 2222 333
2 = modus want hij komt 4 keer vol.
Antwoorden
[a, b, a, a, a,a]
A= modus
Vooral handig voor kwalitatieve meetwaardes.