diff --git a/content/conclusiones.tex b/content/conclusiones.tex index 880865f..cda2726 100644 --- a/content/conclusiones.tex +++ b/content/conclusiones.tex @@ -26,10 +26,10 @@ \chapter{Conclusiones} inclusión de un parámetro más para indicar la matriz de co-ocurrencia de etiquetas ha dado resultados que vale la pena mencionar. En primer lugar, el uso de la matriz derivada de la colección 20ng ha contribuido a generar un -\textit{stream} sintético con mayor cercanía al del método de MOA para todos los -fenómenos estudiados. Incluso en el estudio del sesgo de etiquetas para Enron se -observa una curva de sesgo más próxima a la de la colección original. De -cualquier manera, para esta última colección y para Mediamill no es posible +\textit{stream} sintético con mayor cercanía a la del método de MOA para todos +los fenómenos estudiados. Incluso en el estudio del sesgo de etiquetas para +Enron se observa una curva de sesgo más próxima a la de la colección original. +De cualquier manera, para esta última colección y para Mediamill no es posible observar una mejoría significativa en cuanto a la distribución de etiquetas con respecto a MOA y, por lo tanto, no es posible determinar con certeza que un método sea mejor que el otro para simular estos datos. En cuanto al análisis de diff --git a/content/experimentos.tex b/content/experimentos.tex index 42d30f7..bba145a 100644 --- a/content/experimentos.tex +++ b/content/experimentos.tex @@ -18,7 +18,7 @@ \section{Configuración Experimental} \textit{scikit-multiflow}. Los algoritmos de transformación del problema se aplican tal como han sido implementados en la librería con la salvedad del \acrshort{mlht}, al que debió introducirle una modificación para manipular la -predicción, se usaba un arreglo disperso para representar las etiquetas +predicción: se usaba un arreglo disperso para representar las etiquetas activadas, lo cual producía un desbordamiento de memoria en el entrenamiento de colecciones grandes como la de Mediamill. Se lo suplantó por una estructura de representación densa. En cuanto a los modelos de ensambles, se adaptaron las @@ -109,7 +109,7 @@ \section{Resultados} \label{experimentos_resultados} A continuación se exhiben los resultados obtenidos de los experimentos. En -primer lugar, en la sección~\ref{experimentos_syn_streams} se estudian los +primer lugar, en la sección~\ref{experimentos_syn_streams}, se estudian los flujos continuos sintéticos generados y luego, ya en la sección~\ref{experimentos_clasificaciones}, se analizan los resultados de las evaluaciones. @@ -257,9 +257,9 @@ \subsubsection{20ng} frecuentes de cada \textit{stream} y da una idea del espacio de atributos generado. En este caso, JC y JC\_BIG producen \textit{features} muy similares y casi en el mismo orden ($model$ y $bit$ alternando la posición 6 entre -\textit{streams}). Los únicos atributos que aparecen en el top y no son +\textit{streams}). Los únicos atributos que aparecen en el \textit{top} y no son compartidos entre estos dos flujos son $muslim$ y $good$, este último, a su vez, -es el único que aparece también en el top de la colección original. +es el único que aparece también en el \textit{top} de la colección original. \subsubsection{Enron} @@ -393,8 +393,8 @@ \subsubsection{Enron} Por último, la figura~\ref{tab:syn_enron_features_space} lista los atributos más frecuentes de cada \textit{stream}. Esta vez, JC y JC\_BIG comparten los 10 -atributos del top y solo varía levemente el ordenamiento entre sí. MOA y la -colección original comparten un atributo en el top: $10$. +atributos del \textit{top} y solo varía levemente el ordenamiento entre sí. MOA +y la colección original comparten un atributo en el \textit{top}: \comillas{10}. \subsubsection{Mediamill} @@ -691,7 +691,7 @@ \subsubsection{Comparativa contra Literatura de Referencia} \citeauthor{osojnik_multi-label_2017} presentaron experimentos sobre las colecciones de 20ng y Enron bajo métricas basadas en ejemplos (\textit{hamming - score}, \textit{f1} y \textit{exact-match}), métricas basadas en etiquetas + score}, \textit{f1} y \textit{exact-match}) y métricas basadas en etiquetas (precisión, \textit{recall} y \textit{f1}, todas ellas con promedio micro y macro). Comenzando por las métricas basadas en ejemplos, el modelo \textit{iSOUP-MT} es el que mejor \textit{hamming score} obtiene en sus @@ -740,7 +740,7 @@ \subsubsection{Comparativa contra Literatura de Referencia} obtuvimos que \acrshort{efmp} es superado en un 26\% para 20ng, en un 86\% para Enron y en un 92\% para Mediamill. No obstante, bajo la métrica de \textit{f1}, nuestros modelos superan en un 65\% y 229\% a sus modelos para 20ng y Enron -respectivamente y es superado en un 26\% para Mediamill. Los autores no +respectivamente y son superados en un 26\% para Mediamill. Los autores no realizaron pruebas sobre métricas basadas en etiquetas. Finalmente, \citeauthor{buyukcakir_novel_2018} presentaron el modelo de diff --git a/content/introduccion.tex b/content/introduccion.tex index a11ed17..ba0857e 100644 --- a/content/introduccion.tex +++ b/content/introduccion.tex @@ -118,15 +118,16 @@ \subsection{Clasificación Multi-etiquetas} anotación automática de videos o clasificación de genes y funciones proteicas. A modo de ejemplo, en el campo mencionado de clasificación semántica de escenas, la foto de un paisaje que ilustra una montaña y una playa puede asociarse a las -categorías de ‘playa’ y ‘montaña’, simultáneamente \cite{gibaja_tutorial_2015}; -en bioinformática, cada gen puede ser asociado a clases según su función, tales -como ‘metabolismo’, ‘transcripción’ o ‘síntesis proteica’ +categorías de \comillas{playa} y \comillas{montaña}, simultáneamente +\cite{gibaja_tutorial_2015}; en bioinformática, cada gen puede ser asociado a +clases según su función, tales como \comillas{metabolismo}, +\comillas{transcripción} o \comillas{síntesis proteica} \cite{zhang_multi-label_2010}; por último, en recuperación de información -musical una pieza sinfónica puede tener \textit{tags} como ‘Mozart’, ‘piano’ o -‘clásica’. +musical una pieza sinfónica puede tener \textit{tags} como \comillas{Mozart}, +\comillas{piano} o \comillas{clásica}. -Este paradigma es llamado '\acrlong{mll}' y ataca problemas con las siguientes -características \cite{gibaja_tutorial_2015}: +Este paradigma es llamado \comillas{\acrlong{mll}} y ataca problemas con las +siguientes características \cite{gibaja_tutorial_2015}: \begin{itemize} @@ -157,10 +158,11 @@ \subsection{Clasificación Multi-etiquetas} de salida y, en consecuencia, costos computacionales altos. En ese sentido, se ha buscado desarrollar algoritmos que aprovechan las correlaciones o dependencias entre etiquetas. Por ejemplo, la probabilidad de que una noticia -que contiene los términos ‘pelota’ y ‘gol’ sea anotada con la etiqueta ‘fútbol’ -sería mayor que si se etiquetara con la etiqueta ‘tenis’. -\citeauthor{zhang_multi-label_2010} clasifican estos algoritmos en tres grupos -según la estrategia de correlación aplicada \cite{zhang_multi-label_2010}: +que contiene los términos \comillas{pelota} y \comillas{gol} sea anotada con la +etiqueta \comillas{fútbol} sería mayor que si se etiquetara con la etiqueta +\comillas{tenis}. \citeauthor{zhang_multi-label_2010} clasifican estos +algoritmos en tres grupos según la estrategia de correlación aplicada +\cite{zhang_multi-label_2010}: \begin{description} \label{estrategias_mll} @@ -440,8 +442,8 @@ \section{Aportes} A diferencia de otros trabajos de investigación recientes, este trabajo final lleva a cabo estudios experimentales sobre el tema de clasificaciones multi-etiquetas, para hallar las fortalezas y debilidades de distintos -algoritmos de aprendizaje sobre distintos tipos de colecciones. A ello le -sumamos el diseño y desarrollo del algoritmo \acrshort{efmp} que utiliza +algoritmos de aprendizaje sobre distintos tipos de colecciones. A ello se le +suma el diseño y desarrollo del algoritmo \acrshort{efmp} que utiliza estrategias de ensambles para combinar estimadores bien conocidos del campo. Todo ello con miras a aportar de un mayor conocimiento empírico sobre el tema a la comunidad científica especializada en tareas de clasificación de flujos de diff --git a/content/metodologia.tex b/content/metodologia.tex index afa04cf..cfc1d6d 100644 --- a/content/metodologia.tex +++ b/content/metodologia.tex @@ -60,7 +60,7 @@ \chapter{Metodología} por mayoría ponderada, teniendo en cuenta la predicción realizada por cada miembro y su respectivo vector de pesos. La implementación se basa en la presentada por~\citeauthor{kolter_dynamic_2007}~\cite{kolter_dynamic_2007} -descritaa en la sección~\ref{ensambles_mll}. Los autores también ponderan los +descrita en la sección~\ref{ensambles_mll}. Los autores también ponderan los clasificadores, pero usan un único algoritmo para generar los $n$ clasificadores base, y no contemplan problemas de múltiples etiquetas. Los experimentos se realizan con dos versiones, una de ellas se entrena con todas las instancias del diff --git a/content/preliminares.tex b/content/preliminares.tex index 89cd126..cb71cab 100644 --- a/content/preliminares.tex +++ b/content/preliminares.tex @@ -605,12 +605,12 @@ \subsection{Datos Sintéticos} suficientes para conducir experimentos adecuados. Generar datos sintéticos es una práctica frecuente en la literatura para simular -ambientes de flujos continuos de datos, el principal motivo es la falta de +ambientes de flujos continuos de datos. El principal motivo es la falta de colecciones de \textit{streams} del mundo real que sean lo suficientemente grandes y que al mismo tiempo cumplan con todos los requisitos necesarios para evaluar algoritmos en este escenario~\cite{kirkby_improving_2007}. Pese a esta restricción, se han hallado ventajas comparativas en la aplicación de flujos -sintéticos en el análisis y evaluación de algoritmos, entre ellas se encuentran +sintéticos en el análisis y evaluación de algoritmos. Entre ellas se encuentran las siguientes~\cite{read_generating_2009}: \begin{itemize} diff --git a/tables/evaluations/label_based_macro.tex b/tables/evaluations/label_based_macro.tex index 0a93427..a4d6f2b 100644 --- a/tables/evaluations/label_based_macro.tex +++ b/tables/evaluations/label_based_macro.tex @@ -10,11 +10,11 @@ \acrshort{br} & 0.604 & 0.106 & 0.062 & \textbf{0.373} & - 0.110 & \textbf{0.553} + \textbf{0.110} & \textbf{0.553} & 0.461 & \textbf{0.108} & 0.111 \\ \acrshort{cc} & 0.667 & 0.113 & 0.065 & - 0.340 & \textbf{0.097} & 0.150 & 0.450 & 0.105 & 0.091 \\ + 0.340 & 0.097 & 0.150 & 0.450 & 0.105 & 0.091 \\ \acrshort{mlht} & 0.546 & 0.005 & 0.074 & 0.318 & 0.016 & 0.030 & 0.402 & 0.008 & 0.043 \\ \hline \acrshort{dwm} (\acrshort{br}) & 0.781 & 0.121 & 0.064 & 0.196 & 0.031 & 0.418 & 0.314 & 0.049 & 0.111 \\