-
Notifications
You must be signed in to change notification settings - Fork 4
/
usage.tex
181 lines (153 loc) · 6.11 KB
/
usage.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
\chapter{Primeri uporabe}
\section{Uporaba modula api\_wrapper}
Enostavno uporabo modula \verb|api_wrapper| s skriptnim delom programa Orange
prikazuje primer \ref{scripting_example}. V temu primeru pogledamo, kako
učinkovito lahko napovemo smrtnost otrok iz raznih indikatorjev zdravja,
okolja in infrastrukture. V vrsticah $5$ do $15$ naredimo poizvedbe po
potrebnih podatkih s programskega vmesnika Svetovne banke. Nato v vrsticah $18$
do $27$ odstranimo vrstice iz tabele, ki nimajo ciljne vrednosti in naredimo novo tabelo z
razredom, ki ga želimo napovedovati. Vrednosti, ki jih želimo napovedovati, se
nahajajo v stolpcu $55$ v tabeli \verb|class_data|. Ta stolpec vsebuje podatke
o smrtnosti otrok mlajših od enega leta za leto 2015. V naslednjih vrsticah
pa zgradimo tri napovedne modele: naključni gozd z
regresijskimi drevesi \verb|rf|, linearna regresija z regularizacijo
\verb|ridge| in srednja vrednost \verb|mean|.
Za ocene napovednih modelov smo uporabili oceni
$RMSE$\fnurl{https://en.wikipedia.org/wiki/Root-mean-square\_deviation} in
$R^2$~\fnurl{https://en.wikipedia.org/wiki/Coefficient\_of\_determination}.
Iz rezultatov (tabela \ref{rezultati_skripte}) je razvidno, da med izbranimi
napovednimi modeli samo naključni gozdovi dajo rezultate, ki so boljši od naklučja.
\begin{snippet}
\begin{center}
\lstinputlisting{example.py}
\end{center}
\cprotect
\caption{Napovedovanje smrtnosti otrok do enega leta iz podatkov o dostopnosti
čiste vode, številu bolniških postelj na 1000 prebivalcev in odstotku
cepljenih otrok do drugega leta starosti.}
\label{scripting_example}
\end{snippet}
\begin{table}
\begin{center}
\begin{tabular}{l|r|r}
Learner & RMSE & R2 \\ \hline
rf & 9.74 & 0.79 \\
ridge & 17.76 & 0.31 \\
mean & 21.35 & -0.00
\end{tabular}
\end{center}
\cprotect
\caption{Rezultati napovedi smrtnosti otrok do enega leta starosti.}
\label{rezultati_skripte}
\end{table}
\section{Napoved temperature s pomočjo $CO_2$ izpustov v ZDA}
Podatke svetovne banke lahko uporabimo tudi kot časovne vrste z uporabo
posebnih gradnikov za delo s časovnimi vrstami \cite{time_series}. Tukaj si
bomo ogledali enostaven primer napovedi temperature v ZDA s pomočjo podatkov o
izpustih $CO_2$. V tej napovedi smo uporabili podatke tako z gradnika
WB Indicators (Slika \ref{var_indicator_select})
kot tudi z gradnika WB Climate (Slika \ref{var_climate_select}). Podatke obeh
gradnikov smo zdru"zili z gradnikom ``Merge Data'' po obeh "casovnih
komponentah. Nato smo odstranili vnose "casovnih obdobij za katere nimamo na
voljo vseh podatkov. Sestavljeno tabelo prikazuje slika \ref{var_data_table}.
Iz teh podatkov nato zgradimo "casovno vrsto in s pomočjo modela vektorske
autoregresije VAR \cite{var_model} napovemo podatke za povprečno
letno temperaturo za naslednjih nekaj let, kar je prikazano na sliki
\ref{var_forecast_graph}.
\begin{figure}
\begin{center}
\includegraphics[width=13.75cm]{pic/var_setup.png}
\end{center}
\caption{Prikaz povezave gradnikov za napoved temperature.}
\label{var_setup}
\end{figure}
\begin{figure}[H]
\begin{center}
\includegraphics[width=13.75cm]{pic/var_indicator_select.png}
\end{center}
\caption{Izbor indikatorja $CO_2$ izpustov v ZDA.}
\label{var_indicator_select}
\end{figure}
\begin{figure}[H]
\begin{center}
\includegraphics[width=8cm]{pic/var_climate_select.png}
\end{center}
\caption{Izbor podatkov povprečnih letnih temperatur v ZDA.}
\label{var_climate_select}
\end{figure}
\begin{figure}[H]
\begin{center}
\includegraphics[width=10cm]{pic/var_data_table.png}
\end{center}
\caption{Podatkovna tabela s ciljnim razredom, in dvema poljema.}
\label{var_data_table}
\end{figure}
\begin{figure}[H]
\begin{center}
\includegraphics[width=13.75cm]{pic/var_forecast_graph.png}
\end{center}
\caption{Prikaz napovedi gibanja povprečnih letnih temperatur ``USA - tas'' in
$CO_2$ izpustov ``United States''.}
\label{var_forecast_graph}
\end{figure}
\section{Gru"cenje dr"zav}
Podatke, ki jih dobimo z na"sim dodatkom, lahko v programu Orange uporabimo tudi
za grafi"cni prikaz statistik in povezav med dr"zavami. Kot mo"zen primer
uporabe (Slika \ref{clustering_setup}) smo prikazali gru"cenje dr"zav svetovnih regij glede na naslednje
indikatorje (Slika \ref{clustering_indicator_selection}):
\begin{itemize}
\item odstotek ljudi ki "zivijo v urbanem okolju
\angl{Urban population (\% of total)},
\item smrtnost na $1000$ "zivorojenih otrok
\angl{Mortality rate, infant (per 1,000 live births)},
\item "stevilo bolni"skih postelj na $1000$ prebivalcev
\angl{Hospital beds (per 1,000 people)},
\item dele"z BDP izdatkov za raziskave in razvoj
\angl{Research and development expenditure (\% of GDP)},
\item "stevilo prebivalstva pod pragom rev"s"cine pri meji $3.10$ dolarjev na dan
\angl{Poverty gap at $\$3.10$ a day (2011 PPP) (\%)}.
\end{itemize}
Med temi podatki teh indikatorjev (slika \ref{clustering_data}) smo izra"cunali evklidsko razdaljo in za prikaz
uporabili "ze obstoje"ca gradnika programa Orange
``MDS'' (slika \ref{clustering_mds}) in
``Hierarchical Clustering'' (slika \ref{clustering_hierarchial_countries}).
% ID: GB.XPD.RSDV.GD.ZS
% ID: SH.MED.BEDS.ZS
% ID: SI.POV.GAP2
% ID: SP.DYN.IMRT.IN
% ID: SP.URB.TOTL.IN.ZS
\begin{figure}
\begin{center}
\includegraphics[width=7cm]{pic/clustering_setup.png}
\end{center}
\caption{Postavitev okolja za prikaz gru"cenja.}
\label{clustering_setup}
\end{figure}
\begin{figure}
\begin{center}
\includegraphics[width=13.75cm]{pic/clustering_indicator_selection.png}
\end{center}
\caption{Izbor indikatorjev za gru"cenje.}
\label{clustering_indicator_selection}
\end{figure}
\begin{figure}
\begin{center}
\includegraphics[width=13.75cm]{pic/clustering_data.png}
\end{center}
\caption{Podatki izbranih indikatorjev.}
\label{clustering_data}
\end{figure}
\begin{figure}
\begin{center}
\includegraphics[width=13.75cm]{pic/clustering_hierarchial_countries.png}
\end{center}
\caption{Prikaz hierarhi"cnega gru"cenja dr"zav.}
\label{clustering_hierarchial_countries}
\end{figure}
\begin{figure}
\begin{center}
\includegraphics[width=13.75cm]{pic/clustering_mds.png}
\end{center}
\caption{Prikaz gru"cenja MDS.}
\label{clustering_mds}
\end{figure}