Introdução à Ciência de Dados

Curso Ofertado Pelo DCC-UFMG

Sumário

Introdução à Ciência de Dados
Módulo 0: Motivação
Módulo 1: Análise Exploratória
Módulo 2: Testes de Hipótese
Módulo 3: Correlação e Regressão
Módulo 4: Classificação e um Pouco de ML
Projeto
Bibliografia

Uma introdução ao ciclo de ciência de dados em quatro partes.

O curso de Introdução à Ciência de Dados (DCC212) do DCC-UFMG tem como principal objetivo trazer para os discentes um conhecimento estatístico através de um ponto de vista computacional. O curso é fortemente inspirado nas ofertas chamadas de Data8 e Data100 da universidade de Berkeley. Tais ementas (Data8 e Data100) foram adaptadas para a realidade de discentes da graduação da UFMG. Em particular, foi levado em conta que na nossa grade, os discentes já passaram por matérias como: Álgebra Linear Computacional e Probabilidade.

Abaixo descrevemos as 4 partes (5 se contar a introdução) do curso junto com os resultados de aprendizado esperados em cada. Tal estrutura em móudlos permite que o aprendizado possa ser feito de diferentes fomas como:

Uma visão de um livro de estatística:

Mod 1 - Mod 2 - Mod 3 - Mod 4

Ou, uma visão mais focada em aprendizado de máquina.

Mod 1 - Mod 3 - Mod 4 - Mod 2

Módulo 0: Motivação

Uma breve motivação em 1 aula.

Objetivos de Aprendizado

Motivar o curso e a carreira
Falar do grande problema de ciência de dados (causa e efeito)

Módulo 1: Análise Exploratória

Ao terminar esta parte do curso o discente deve saber o mínimo sobre como ler e plotar dados. Além do mais, deve ter feito uma revisão do seu curso de Probabilidade (Probabilidade I) ou Probabilidade e Estatística.

Objetivos de Aprendizado

Aprender sobre tabelas de dados, csvs e tipos de colunas
Bons princípios de visualização
Análise exploratória e limpeza e dados
Tendências Centrais
1. Média, Mediana, Desvio Padrão etc.
Revisão de Probabilidade (pré-requisito do curso)
1. Distribuições Discretas vs Contínuas
2. A Normal
3. Estimadores da média e sua variâncias

Módulo 2: Testes de Hipótese

Ao terminar esta parte do curso o discente deve saber o mínimo sobre como o essencial de testes de hipóteses. Este curso não cobre uma diversidade de testes. O foco maior é no entendimento de conceitos como: intervalos de confiança, valores p, testes a/b e noções de assuntos avançados (poder e testes múltiplos). Além do mais, usamos o arcabouço de testes para falar de ciência no geral vs ciência de dados.

Objetivos de Aprendizado

Intervalos de Confiança
Bootstrap
Testes A/B
Valores P e Testes de Pemutação
1. Seguindo a filosofia do Data8 e Data100 de Berkeley, não nos preocupamos muito em detalhes testes-t, wald etc. O foco é no conceito via métodos computacionais.
Valores P e Testes de Pemutação
1. Seguindo a filosofia do Data8 e Data100 de Berkeley, não nos preocupamos muito em detalhes testes-t, wald etc. O foco é no conceito via métodos computacionais.
Ciência vs Ciência de Dados

Módulo 3: Correlação e Regressão

Toda esta parte do curso foca apenas em Regressão. Embora pareça ser muitas aulas para o assunto, a ideia é seguir a filosofia do curso de aprendizado de máquina do Andrew Ng (Coursera). Regressão é usado não apenas como conceito estatístico, mas sim como uma forma de apresentar o discente ao aprendizado de máquina. Ou seja, aqui vamos explorar conceitos como funções de perda e verossimilhança.

Objetivos de Aprendizado

Correlação de Dados
1. Pearson e Spearman
Regressão Linear
1. Qual o problema sendo resolvido
2. Como fazer regressão múltipla e polinomial
Mínimos Quadrados
1. Funções de Perda e Gradiente Descendente
Verossimilhança
1. Funções de Ganho e Gradiente Ascendente
Regressão na Prática
1. Engenharia de Atributos
2. Introdução ao problema de previsão

Módulo 4: Classificação e um Pouco de ML

Neste módulo o discente vai abordar o problema de inferência para problemas de classificação. O módulo é uma continuação do anterior, sendo necessário o aprendizado de Regressão antes de assistir as aulas daqui. O objetivo é que com os módulos três e quatro, o discente aprenda diferentes formas de relacionar variáveis explanatórias com respostas. Observe que tais relações são complementares ao aprendizado do módulo um.

Objetivos de Aprendizado

Regularização e o Ciclo do Aprendizado de Máquina
1. Falar de hiper-parâmetros e de treino, teste e validação.
Logística Parte 1
1. Uma introdução a regressão logística via a função de verossimilhança
Logística Parte 2
1. Logística na prática e entropia cruzada
KNN e Aprendizado na Prática
1. Aula mais focada em fechar todo o ciclo, comparação entre KNNRegressor e Regressão Linear além de KNNClassifier e a Logística.
Aprendizado não Supervisionado (SVD e K-Means)
1. SVD e PCA
2. Kmeans

Projeto

Com o Projeto os discentes tem a chance de praticar o conhecimento adquirido nos quatro módulos acima. É sugerida uma leitura detalhada do material sobre o projeto neste sítio para um entendimento melhor de como fazer uso de todo conhecimento de forma coerente.

Bibliografia

Principles and Techniques of Data Science
Sam Lau, Joey Gonzalez, and Deb Nolan.
Apenas em inglês. Aberto!
Open Intro Modern Statistics
Mine Çetinkaya-Rundel, and Johanna Hardin.
Apenas em inglês. Aberto!
Computational and Inferential Thinking: The Foundations of Data Science
Ani Adhikari and John DeNero
Apenas em inglês. Aberto!
Data Science from Scratch
Joel Grus
Existe em Português! Pago.
Fundamentos Estatísticos para Ciência da Computação
Renato Assunção
Português
An Introduction to Statistical Learning
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
Apenas em inglês. Aberto!