Introdução à Ciência de Dados
Curso Ofertado Pelo DCC-UFMG
Sumário
- Introdução à Ciência de Dados
- Módulo 0: Motivação
- Módulo 1: Análise Exploratória
- Módulo 2: Testes de Hipótese
- Módulo 3: Correlação e Regressão
- Módulo 4: Classificação e um Pouco de ML
- Projeto
- Bibliografia
Uma introdução ao ciclo de ciência de dados em quatro partes.
O curso de Introdução à Ciência de Dados (DCC212) do DCC-UFMG tem como principal objetivo trazer para os discentes um conhecimento estatístico através de um ponto de vista computacional. O curso é fortemente inspirado nas ofertas chamadas de Data8 e Data100 da universidade de Berkeley. Tais ementas (Data8 e Data100) foram adaptadas para a realidade de discentes da graduação da UFMG. Em particular, foi levado em conta que na nossa grade, os discentes já passaram por matérias como: Álgebra Linear Computacional e Probabilidade.
Abaixo descrevemos as 4 partes (5 se contar a introdução) do curso junto com os resultados de aprendizado esperados em cada. Tal estrutura em móudlos permite que o aprendizado possa ser feito de diferentes fomas como:
Uma visão de um livro de estatística:
Mod 1 - Mod 2 - Mod 3 - Mod 4
Ou, uma visão mais focada em aprendizado de máquina.
Mod 1 - Mod 3 - Mod 4 - Mod 2
Módulo 0: Motivação
Uma breve motivação em 1 aula.
Objetivos de Aprendizado
- Motivar o curso e a carreira
- Falar do grande problema de ciência de dados (causa e efeito)
Módulo 1: Análise Exploratória
Ao terminar esta parte do curso o discente deve saber o mínimo sobre como ler e plotar dados. Além do mais, deve ter feito uma revisão do seu curso de Probabilidade (Probabilidade I) ou Probabilidade e Estatística.
Objetivos de Aprendizado
- Aprender sobre tabelas de dados, csvs e tipos de colunas
- Bons princípios de visualização
- Análise exploratória e limpeza e dados
- Tendências Centrais
- Média, Mediana, Desvio Padrão etc.
- Revisão de Probabilidade (pré-requisito do curso)
- Distribuições Discretas vs Contínuas
- A Normal
- Estimadores da média e sua variâncias
Módulo 2: Testes de Hipótese
Ao terminar esta parte do curso o discente deve saber o mínimo sobre como o essencial de testes de hipóteses. Este curso não cobre uma diversidade de testes. O foco maior é no entendimento de conceitos como: intervalos de confiança, valores p, testes a/b e noções de assuntos avançados (poder e testes múltiplos). Além do mais, usamos o arcabouço de testes para falar de ciência no geral vs ciência de dados.
Objetivos de Aprendizado
- Intervalos de Confiança
- Bootstrap
- Testes A/B
- Valores P e Testes de Pemutação
- Seguindo a filosofia do Data8 e Data100 de Berkeley, não nos preocupamos muito em detalhes testes-t, wald etc. O foco é no conceito via métodos computacionais.
- Valores P e Testes de Pemutação
- Seguindo a filosofia do Data8 e Data100 de Berkeley, não nos preocupamos muito em detalhes testes-t, wald etc. O foco é no conceito via métodos computacionais.
- Ciência vs Ciência de Dados
Módulo 3: Correlação e Regressão
Toda esta parte do curso foca apenas em Regressão. Embora pareça ser muitas aulas para o assunto, a ideia é seguir a filosofia do curso de aprendizado de máquina do Andrew Ng (Coursera). Regressão é usado não apenas como conceito estatístico, mas sim como uma forma de apresentar o discente ao aprendizado de máquina. Ou seja, aqui vamos explorar conceitos como funções de perda e verossimilhança.
Objetivos de Aprendizado
- Correlação de Dados
- Pearson e Spearman
- Regressão Linear
- Qual o problema sendo resolvido
- Como fazer regressão múltipla e polinomial
- Mínimos Quadrados
- Funções de Perda e Gradiente Descendente
- Verossimilhança
- Funções de Ganho e Gradiente Ascendente
- Regressão na Prática
- Engenharia de Atributos
- Introdução ao problema de previsão
Módulo 4: Classificação e um Pouco de ML
Neste módulo o discente vai abordar o problema de inferência para problemas de classificação. O módulo é uma continuação do anterior, sendo necessário o aprendizado de Regressão antes de assistir as aulas daqui. O objetivo é que com os módulos três e quatro, o discente aprenda diferentes formas de relacionar variáveis explanatórias com respostas. Observe que tais relações são complementares ao aprendizado do módulo um.
Objetivos de Aprendizado
- Regularização e o Ciclo do Aprendizado de Máquina
- Falar de hiper-parâmetros e de treino, teste e validação.
- Logística Parte 1
- Uma introdução a regressão logística via a função de verossimilhança
- Logística Parte 2
- Logística na prática e entropia cruzada
- KNN e Aprendizado na Prática
- Aula mais focada em fechar todo o ciclo, comparação entre KNNRegressor e Regressão Linear além de KNNClassifier e a Logística.
- Aprendizado não Supervisionado (SVD e K-Means)
- SVD e PCA
- Kmeans
Projeto
Com o Projeto os discentes tem a chance de praticar o conhecimento adquirido nos quatro módulos acima. É sugerida uma leitura detalhada do material sobre o projeto neste sítio para um entendimento melhor de como fazer uso de todo conhecimento de forma coerente.
Bibliografia
Principles and Techniques of Data Science
Sam Lau, Joey Gonzalez, and Deb Nolan.
Apenas em inglês. Aberto!Open Intro Modern Statistics
Mine Çetinkaya-Rundel, and Johanna Hardin.
Apenas em inglês. Aberto!Computational and Inferential Thinking: The Foundations of Data Science
Ani Adhikari and John DeNero
Apenas em inglês. Aberto!Data Science from Scratch
Joel Grus
Existe em Português! Pago.Fundamentos Estatísticos para Ciência da Computação
Renato Assunção
PortuguêsAn Introduction to Statistical Learning
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
Apenas em inglês. Aberto!