forked from rafalab/dslibro
-
Notifications
You must be signed in to change notification settings - Fork 0
/
intro.Rmd
45 lines (27 loc) · 5.31 KB
/
intro.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
# Introducción {-}
La demanda de profesionales cualificados en ciencias de datos en la industria, la academia y el gobierno está creciendo rápidamente. Este libro presenta conceptos y destrezas que pueden ayudarlos a enfrentar los desafíos del análisis de datos en situaciones reales. El texto abarca los conceptos de probabilidad, inferencia estadística, regresión lineal y [FIX:] machine learning. También les ayudará a desarrollar destrezas como la programación en R, [FIX:] data wrangling, __dplyr__, visualización de datos con __ggplot2__, [FIX:] algorithm building/creación de algoritmos con __caret__, organización de archivos con UNIX/ Linux shell, control de versiones con Git y GitHub y preparación de documentos reproducibles con __knitr__ y R markdown. El libro se divide en seis partes: __R__, __Visualización de datos__, [Fix:] __Data Wrangling__, __Estadísticas con R__, __Machine Learning__ y __Herramientas de productividad__. Cada parte tiene varios capítulos que se deben presentar como una sola clase e incluye docenas de ejercicios distribuidos a través de los capítulos.
## Case studies {-}
A lo largo del libro, utilizamos [Fix:] motivating case studies. En cada [Fix:] case study, intentamos imitar de manera realista la experiencia de los científicos de datos. Para cada uno de los conceptos que discutimos, comenzamos haciendo preguntas específicas a las que entonces respondemos mediante un análisis de datos. Aprendemos los conceptos como un medio para responder a las preguntas. Ejemplos de los [Fix:] case studies incluidos en el libro son:
| [Fix:] Case Study | Concepto |
| ---- | ---| --- |
| Tasas de asesinatos en Estados Unidos por estado | R Conceptos básicos |
| Alturas de estudiantes | Resúmenes estadísticos |
| Tendencias en la salud y la economía mundial | Visualización de datos |
| El impacto de las vacunas en las tasas de enfermedades infecciosas | Visualización de datos |
| La crisis financiera de 2007-2008 | Probabilidad |
| Previsión de elecciones | Inferencia estadística |
| Alturas autoreportadas de estudiantes | Data wrangling |
| Money Ball: Construyendo un equipo de béisbol | Regresión lineal |
| MNIST: Procesamiento de imagen de dígitos escritos a mano | [Fix:] Machine Learning |
| Sistemas de recomendación de películas | [Fix:] Machine Learning |
## ¿Quién encontrará útil este libro? {-}
El próposito de este libro es servir como un texto para un primer curso de ciencia de datos. No es necesario tener conocimientos previos de R, aunque algo de experiencia en la programación puede ser útil. Los conceptos estadísticos utilizados para responder a las preguntas de [FIX:] case studies se presentan sólo brevemente, y por tanto recomendamos un libro de texto de Probabilidad y Estadística para los que quieran entender a fondo estos conceptos. Al leer y comprender todos los capítulos y completar todos los ejercicios, los estudiantes estarán bien posicionados para realizar tareas básicas de análisis de datos y aprender los conceptos y las destrezas más avanzadas que son necesarios para convertirse en un experto.
## ¿Que cubre este libro? {-}
Comenzamos repasando los **conceptos básicos de R** y el __tidyverse__. Aprenderán R a lo largo del libro, pero en la primera parte nos dedicamos a revisar los componentes básicos necesarios para seguir aprendiendo.
La creciente disponibilidad de conjuntos de datos informativos y herramientas de software ha llevado a una mayor dependencia de la **visualizaciones de datos** en muchos campos. En la segunda parte, demostramos cómo usar __ggplot2__ para generar gráficos y describir principios importantes de visualización de datos.
En la tercera parte demostramos la importancia de las estadísticas en el análisis de datos respondiendo a preguntas de [FIX:] case studies usando **probabilidad, inferencia y regresión** con R.
La cuarta parte utiliza varios ejemplos para familiarizar a los lectores con **data wrangling**. Entre las destrezas específicas que estudiamos están el [FIX:] web scraping, el uso de expresiones regulares y la unión y remodelación de tablas de datos. Hacemos esto usando las herramientas de __tidyverse__.
En la quinta parte presentamos varios desafíos que nos llevan a introducir **machine learning**. Aprendemos a usar el paquete __caret__ para construir algoritmos de predicción que incluyen [FIX:] K-nearest neighbors and random forests.
En la parte final, proporcionamos una breve introducción a las **herramientas de productividad** que usamos diariamente en proyectos de ciencia de datos. Estos son RStudio, UNIX/ Linux shell, Git y GitHub, y __knitr__ y R Markdown.
## ¿Qué no cubre este libro? {-}
Este libro se enfoca en los aspectos de análisis de datos de la ciencia de datos. Por consiguiente, no discutimos aspectos relacionados con [FIX:] data management/la gestión de datos o la ingeniería. Aunque la programación en R es una parte esencial del libro, no enseñamos temas informáticos más avanzados como las estructuras de datos, la optimización y la teoría de algoritmos. Del mismo modo, no discutimos temas como los servicios Web, gráficos interactivos, computación paralela y [FIX:] data streaming processing. Los conceptos estadísticos se presentan principalmente como herramientas para resolver problemas y no se incluyen descripciones teóricas en profundidad en este libro.