Ciencias de Datos

Estamos convencidos de que un analista de datos tanto en la actualidad como en las próximas décadas necesitará una comprensión profunda de las matemáticas utilizadas en la Ciencia de Datos. El diferenciador para ser un analista competitivo contiene entre sus cualidades la fluidez con la que se hable el lenguaje matemático. Sabemos que así como no es suficiente saber matemáticas para tener éxito en Ciencias de Datos -pues otros factores tales como la ingeniería de datos, las habilidades como programador etc... son esenciales para la preparación de un analista- la naturaleza compleja de los problemas requiere un análisis que se sostenga en firmes pasos científicos, muchos de ellos escritos en forma de teoremas. Además de lo anterior, la capacidad de mejora para un analista con una firme formación matemática, provee un valor con el sabor de una inversión informada.

​Objetivos

  1. Proveer al estudiante de la intuición correcta detrás de los problemas en ciencia de datos y algunos de los algoritmos para solucionarlos, incluyendo:

    • La interpretación geométrica 

    • Las limitaciones tanto teóricas como prácticas

    • La comparación con otros algoritmos

  2. Dotar al estudiante del lenguaje necesario para traducir de manera fluida:

    • Los problemas de la ciencia de catos al lenguaje matemático utilizado en machine learning.

    • Los algoritmos expuestos en la literatura -ya sea en los artículos científicos o los libros de texto- a los problemas concretos. 

Temario

Bloque uno

 

El bloque uno está enfocado en dos objetivos principales:

 

  1. Mediante tres algoritmos (perceptrón, regresiones lineales y regresiones logísticas) invitar al alumno a los métodos y el lenguaje de la Ciencia de Datos.

  2. Hacer un diagnóstico preciso del alumno con el fin de ofrecer un programa mejor planeado para el resto de bloques.

 

Temario

 

1. Perceptrón (Clasificación)

  • Planteamiento de un problema de clasificación binaria.

  • Etapas de un problema de aprendizaje.

  • Interpretación geométrica de la clasificación lineal

  • Formulación algebraica de la clasificación lineal

 

2. Regresiones lineales (Forecasting)

  • Planteamiento de un problema de regresión

  • Regresiones lineales

  • Correlación 

  • Solución exacta y álgebra de matrices

  • Aproximación mediante el método del gradiente

  • Ruido estocástico

  • Regresiones polinomiales

 

3. Regresión logística (Inferencia bayesiana)

  • Clasificación binaria mediante la regresión logística

  • Teorema de Bayes

  • Función sigmoide e interpretación 

  • Maximización de la verosimilitud

  • Algortimos de aproximación

 

 

Bloque dos

 

 

El objetivo principal es darle continuación a los dos algoritmos que estudiamos en el bloque uno, así como introducir los primeros algoritmos no-paramétricos y no-supervisados. 

 

Por un lado los árboles de decisión generalizan al perceptrón al permitir la clasificación no lineal, además con ellos comenzaremos el estudio de los algoritmos no-paramétricos. 

 

El método PCA será el primer ejemplo de algoritmo no-supervisado que estudiaremos, además permite reforzar la idea de correlación estudiada en el bloque anterior. 

 

Por último comenzaremos el estudio de los algoritmos de cercanía que además de ser el segundo ejemplo no-supervisado y no paramédico nos permitirá introducir la idea de clusterización. 

 

 

Temario

 

  1. Árboles de decisión

  • ¿Qué no e sun árbol de decisión?
  • Interpretación geométrica

  • ID3

  • Entropía y función Gini

 2. Principal component analysis (PCA) 

  • Interpretación en términos de la varianza

  • Interpretación en términos de la distancia 

  • Relación con álgebra lineal

    • Enigenvalores

    • Singular value decomposition

    • QR-decomposition

  • Algoritmos usuales

 

 

 3. Algoritmos de cercanía y clusterización 

  • Distancias euclidianas y otras métricas

  • K-nearest neighbours 

    • 1-NN

    • Algoritmo general

    • La maldición de la dimensión 

  • K-means

  • Clustering

 

Bloque tres

 

 

Son tres los objetivos del bloque tres:

  • En primer lugar buscamos introducir el concepto de regularización en machine learning el cual es fundamental para comparar algoritmos mediante su capacidad de generalización. 

  • El segundo objetivo es ampliar la paleta de algoritmos que comprende el estudiante mediante dos técnicas fundamentales para la clasificación y forecasting: redes neuronales y series de tiempo. 

  • Por último comenzamos la presentación y el análisis de otra familia de algoritmos útiles y comunes en machine learning, los llamados algoritmos estocásticos, nos concentraremos en su relación con las redes neuronales, las regresiones lineales y los árboles de decisión. Complementaremos este bloque con una invitación a boosting.

 

 

Temario

 

1. Regularización en Machine Learning

 

  • Fitting v.s. overfitting
  • En regresiones lineales

    • Ridge

    • Lasso

    • Elastic

    • En árboles de decisión: pruning

    • En perceptrón: support vector machines

    •  

2. Invitación a Deep learning

 

  • Funciones de activación
  • Algoritmo de back-propagation

  • Arquitecturas de redes neuronales

  • Convolución y su interpretación: CNN

 

  3. Algoritmos estocásticos

  • Stochastic gradient descent (regresiones y redes neuronales)
  • Random forests (árboles de decisión)

  • Boosting 

 

  4. Invitación a las series de tiempo​

  • Componentes de una serie de tiempo

  • Ruido estocástico blanco

  • Moving-average

  • ARIMA

+52 1 55 59957954

The Pool, CDMX, México.

  • Facebook icono social

©2019 by Bourbakismos. Proudly created with Wix.com