Skip to content

Commit

Permalink
final read: mini corrections
Browse files Browse the repository at this point in the history
- some simple quotes turned into double quotes.
- descritaa -> descrita.
- 'top' in italics.
- etc
  • Loading branch information
Juancard committed May 2, 2022
1 parent eaa7098 commit 651c6a8
Show file tree
Hide file tree
Showing 6 changed files with 32 additions and 30 deletions.
8 changes: 4 additions & 4 deletions content/conclusiones.tex
Original file line number Diff line number Diff line change
Expand Up @@ -26,10 +26,10 @@ \chapter{Conclusiones}
inclusión de un parámetro más para indicar la matriz de co-ocurrencia de
etiquetas ha dado resultados que vale la pena mencionar. En primer lugar, el uso
de la matriz derivada de la colección 20ng ha contribuido a generar un
\textit{stream} sintético con mayor cercanía al del método de MOA para todos los
fenómenos estudiados. Incluso en el estudio del sesgo de etiquetas para Enron se
observa una curva de sesgo más próxima a la de la colección original. De
cualquier manera, para esta última colección y para Mediamill no es posible
\textit{stream} sintético con mayor cercanía a la del método de MOA para todos
los fenómenos estudiados. Incluso en el estudio del sesgo de etiquetas para
Enron se observa una curva de sesgo más próxima a la de la colección original.
De cualquier manera, para esta última colección y para Mediamill no es posible
observar una mejoría significativa en cuanto a la distribución de etiquetas con
respecto a MOA y, por lo tanto, no es posible determinar con certeza que un
método sea mejor que el otro para simular estos datos. En cuanto al análisis de
Expand Down
16 changes: 8 additions & 8 deletions content/experimentos.tex
Original file line number Diff line number Diff line change
Expand Up @@ -18,7 +18,7 @@ \section{Configuración Experimental}
\textit{scikit-multiflow}. Los algoritmos de transformación del problema se
aplican tal como han sido implementados en la librería con la salvedad del
\acrshort{mlht}, al que debió introducirle una modificación para manipular la
predicción, se usaba un arreglo disperso para representar las etiquetas
predicción: se usaba un arreglo disperso para representar las etiquetas
activadas, lo cual producía un desbordamiento de memoria en el entrenamiento de
colecciones grandes como la de Mediamill. Se lo suplantó por una estructura de
representación densa. En cuanto a los modelos de ensambles, se adaptaron las
Expand Down Expand Up @@ -109,7 +109,7 @@ \section{Resultados}
\label{experimentos_resultados}

A continuación se exhiben los resultados obtenidos de los experimentos. En
primer lugar, en la sección~\ref{experimentos_syn_streams} se estudian los
primer lugar, en la sección~\ref{experimentos_syn_streams}, se estudian los
flujos continuos sintéticos generados y luego, ya en la
sección~\ref{experimentos_clasificaciones}, se analizan los resultados de las
evaluaciones.
Expand Down Expand Up @@ -257,9 +257,9 @@ \subsubsection{20ng}
frecuentes de cada \textit{stream} y da una idea del espacio de atributos
generado. En este caso, JC y JC\_BIG producen \textit{features} muy similares y
casi en el mismo orden ($model$ y $bit$ alternando la posición 6 entre
\textit{streams}). Los únicos atributos que aparecen en el top y no son
\textit{streams}). Los únicos atributos que aparecen en el \textit{top} y no son
compartidos entre estos dos flujos son $muslim$ y $good$, este último, a su vez,
es el único que aparece también en el top de la colección original.
es el único que aparece también en el \textit{top} de la colección original.

\subsubsection{Enron}

Expand Down Expand Up @@ -393,8 +393,8 @@ \subsubsection{Enron}

Por último, la figura~\ref{tab:syn_enron_features_space} lista los atributos más
frecuentes de cada \textit{stream}. Esta vez, JC y JC\_BIG comparten los 10
atributos del top y solo varía levemente el ordenamiento entre sí. MOA y la
colección original comparten un atributo en el top: $10$.
atributos del \textit{top} y solo varía levemente el ordenamiento entre sí. MOA
y la colección original comparten un atributo en el \textit{top}: \comillas{10}.

\subsubsection{Mediamill}

Expand Down Expand Up @@ -691,7 +691,7 @@ \subsubsection{Comparativa contra Literatura de Referencia}

\citeauthor{osojnik_multi-label_2017} presentaron experimentos sobre las
colecciones de 20ng y Enron bajo métricas basadas en ejemplos (\textit{hamming
score}, \textit{f1} y \textit{exact-match}), métricas basadas en etiquetas
score}, \textit{f1} y \textit{exact-match}) y métricas basadas en etiquetas
(precisión, \textit{recall} y \textit{f1}, todas ellas con promedio micro y
macro). Comenzando por las métricas basadas en ejemplos, el modelo
\textit{iSOUP-MT} es el que mejor \textit{hamming score} obtiene en sus
Expand Down Expand Up @@ -740,7 +740,7 @@ \subsubsection{Comparativa contra Literatura de Referencia}
obtuvimos que \acrshort{efmp} es superado en un 26\% para 20ng, en un 86\% para
Enron y en un 92\% para Mediamill. No obstante, bajo la métrica de \textit{f1},
nuestros modelos superan en un 65\% y 229\% a sus modelos para 20ng y Enron
respectivamente y es superado en un 26\% para Mediamill. Los autores no
respectivamente y son superados en un 26\% para Mediamill. Los autores no
realizaron pruebas sobre métricas basadas en etiquetas.

Finalmente, \citeauthor{buyukcakir_novel_2018} presentaron el modelo de
Expand Down
28 changes: 15 additions & 13 deletions content/introduccion.tex
Original file line number Diff line number Diff line change
Expand Up @@ -118,15 +118,16 @@ \subsection{Clasificación Multi-etiquetas}
anotación automática de videos o clasificación de genes y funciones proteicas.
A modo de ejemplo, en el campo mencionado de clasificación semántica de escenas,
la foto de un paisaje que ilustra una montaña y una playa puede asociarse a las
categorías de ‘playa’ y ‘montaña’, simultáneamente \cite{gibaja_tutorial_2015};
en bioinformática, cada gen puede ser asociado a clases según su función, tales
como ‘metabolismo’, ‘transcripción’ o ‘síntesis proteica’
categorías de \comillas{playa} y \comillas{montaña}, simultáneamente
\cite{gibaja_tutorial_2015}; en bioinformática, cada gen puede ser asociado a
clases según su función, tales como \comillas{metabolismo},
\comillas{transcripción} o \comillas{síntesis proteica}
\cite{zhang_multi-label_2010}; por último, en recuperación de información
musical una pieza sinfónica puede tener \textit{tags} como Mozart’, ‘piano’ o
clásica.
musical una pieza sinfónica puede tener \textit{tags} como \comillas{Mozart},
\comillas{piano} o \comillas{clásica}.

Este paradigma es llamado '\acrlong{mll}' y ataca problemas con las siguientes
características \cite{gibaja_tutorial_2015}:
Este paradigma es llamado \comillas{\acrlong{mll}} y ataca problemas con las
siguientes características \cite{gibaja_tutorial_2015}:

\begin{itemize}

Expand Down Expand Up @@ -157,10 +158,11 @@ \subsection{Clasificación Multi-etiquetas}
de salida y, en consecuencia, costos computacionales altos. En ese sentido, se
ha buscado desarrollar algoritmos que aprovechan las correlaciones o
dependencias entre etiquetas. Por ejemplo, la probabilidad de que una noticia
que contiene los términos ‘pelota’ y ‘gol’ sea anotada con la etiqueta ‘fútbol’
sería mayor que si se etiquetara con la etiqueta ‘tenis’.
\citeauthor{zhang_multi-label_2010} clasifican estos algoritmos en tres grupos
según la estrategia de correlación aplicada \cite{zhang_multi-label_2010}:
que contiene los términos \comillas{pelota} y \comillas{gol} sea anotada con la
etiqueta \comillas{fútbol} sería mayor que si se etiquetara con la etiqueta
\comillas{tenis}. \citeauthor{zhang_multi-label_2010} clasifican estos
algoritmos en tres grupos según la estrategia de correlación aplicada
\cite{zhang_multi-label_2010}:

\begin{description}
\label{estrategias_mll}
Expand Down Expand Up @@ -440,8 +442,8 @@ \section{Aportes}
A diferencia de otros trabajos de investigación recientes, este trabajo final
lleva a cabo estudios experimentales sobre el tema de clasificaciones
multi-etiquetas, para hallar las fortalezas y debilidades de distintos
algoritmos de aprendizaje sobre distintos tipos de colecciones. A ello le
sumamos el diseño y desarrollo del algoritmo \acrshort{efmp} que utiliza
algoritmos de aprendizaje sobre distintos tipos de colecciones. A ello se le
suma el diseño y desarrollo del algoritmo \acrshort{efmp} que utiliza
estrategias de ensambles para combinar estimadores bien conocidos del campo.
Todo ello con miras a aportar de un mayor conocimiento empírico sobre el tema a
la comunidad científica especializada en tareas de clasificación de flujos de
Expand Down
2 changes: 1 addition & 1 deletion content/metodologia.tex
Original file line number Diff line number Diff line change
Expand Up @@ -60,7 +60,7 @@ \chapter{Metodología}
por mayoría ponderada, teniendo en cuenta la predicción realizada por cada
miembro y su respectivo vector de pesos. La implementación se basa en la
presentada por~\citeauthor{kolter_dynamic_2007}~\cite{kolter_dynamic_2007}
descritaa en la sección~\ref{ensambles_mll}. Los autores también ponderan los
descrita en la sección~\ref{ensambles_mll}. Los autores también ponderan los
clasificadores, pero usan un único algoritmo para generar los $n$ clasificadores
base, y no contemplan problemas de múltiples etiquetas. Los experimentos se
realizan con dos versiones, una de ellas se entrena con todas las instancias del
Expand Down
4 changes: 2 additions & 2 deletions content/preliminares.tex
Original file line number Diff line number Diff line change
Expand Up @@ -605,12 +605,12 @@ \subsection{Datos Sintéticos}
suficientes para conducir experimentos adecuados.

Generar datos sintéticos es una práctica frecuente en la literatura para simular
ambientes de flujos continuos de datos, el principal motivo es la falta de
ambientes de flujos continuos de datos. El principal motivo es la falta de
colecciones de \textit{streams} del mundo real que sean lo suficientemente
grandes y que al mismo tiempo cumplan con todos los requisitos necesarios para
evaluar algoritmos en este escenario~\cite{kirkby_improving_2007}. Pese a esta
restricción, se han hallado ventajas comparativas en la aplicación de flujos
sintéticos en el análisis y evaluación de algoritmos, entre ellas se encuentran
sintéticos en el análisis y evaluación de algoritmos. Entre ellas se encuentran
las siguientes~\cite{read_generating_2009}:

\begin{itemize}
Expand Down
4 changes: 2 additions & 2 deletions tables/evaluations/label_based_macro.tex
Original file line number Diff line number Diff line change
Expand Up @@ -10,11 +10,11 @@
\acrshort{br} & 0.604
& 0.106
& 0.062 & \textbf{0.373} &
0.110 & \textbf{0.553}
\textbf{0.110} & \textbf{0.553}
& 0.461 & \textbf{0.108} & 0.111 \\
\acrshort{cc} & 0.667
& 0.113 & 0.065 &
0.340 & \textbf{0.097} & 0.150 & 0.450 & 0.105 & 0.091 \\
0.340 & 0.097 & 0.150 & 0.450 & 0.105 & 0.091 \\
\acrshort{mlht} & 0.546 & 0.005 & 0.074 & 0.318 & 0.016 & 0.030 & 0.402 & 0.008 & 0.043 \\
\hline
\acrshort{dwm} (\acrshort{br}) & 0.781 & 0.121 & 0.064 & 0.196 & 0.031 & 0.418 & 0.314 & 0.049 & 0.111 \\
Expand Down

0 comments on commit 651c6a8

Please sign in to comment.