Logística do Projeto

Uma introdução ao projeto e exemplos de um bom ciclo de trabalho


Sumário

  1. Descrição
  2. Tarefas
  3. Bases Sugeridas

Descrição

Neste projeto vamos usar as técnicas que aprendemos em sala de aula em alguns problemas de ciência de dados. Para tal, você vai gerar um relatório (Notebook ou Latex) analisando uma base de dados de seu interesse. Caso queira, existem bases de dados que sugerimos listadas abaixo. O importante do projeto é que o mesmo analise uma base de dados seguindo todo o ciclo do cientista de dados. Ou seja, é uma análise além do trivial (computar uma média) de uma base que necessita de ao menos exploração, testes e inferência. Você pode usar bases do seu IC/Trabalho.

Abaixo existem sugestões de algumas bases que você pode utilizar. No menu ao lado, descrevemos como são boas análises para cada uma das etapas do curso. É sugerido que o discente leia este guia com atenção e siga todas as sugestões antes de entregar seu projeto.

Tarefas

 NomePontos
1Tema e Equipe1 pto
1Primeira Entrevista2 pto
1Segunda Entrevista2 pto
1Terceira Entrevista2 pto
1Entrega23 ptos

Com base no cronograma abaixo, você vai ser avaliado nas seguintes tarefas:

  1. Definir o Grupo + Tema (1 pts)
    1. Preencher planilha. Grupos de no máximo quatro pessoas! Quanto mais pessoas mais trabalho será esperado do relatório.
  2. Ao definir o tema, defina:
    1. Uma base de dados. Caso esteja sem ideias, recomendo a base de COVID19
    2. Quais são as perguntas de ciência de dados que vão ser abordadas
    3. Recomendo já começar um entendimento da base
  3. Discussão com Monitores (6 pts)
    1. Após definir o passo acima, você já pode iniciar o trabalho do projeto. Você tem que fazer três reuniões com os monitores até as datas definidas. Cada reunião vale 2 ptos.
    2. Um forms será passado para marcar um horário. Cada reunião serve para tirar dúvidas e acompanhar o andamento do projeto.
  4. Relatório Final: Entregue um relatório sobre os resultados que você levantou para responder às suas perguntas. Sua análise dos dados deve apresentar:
    1. Uma caracterização (análise exploratória) inicial dos dados (4pts)
    2. Pelo menos, dois testes de hipótese/intervalos de confiança (5pts). Os ICs podem ser apresentados nos resultados de regressão e classificação abaixo. Os testes de hipótese também podem ser utilizados abaixo para comparar modelos.
    3. Pelo menos uma regressão e/ou uma classificação (9pts)
  5. No seu relatório, você deve apresentar pelo menos os seguintes pontos (2pts):
    1. Introdução com Motivação e Pergunta de Pesquisa
    2. Metodologia
      1. Descreva sua base
    3. Quais métodos e modelos foram utilizados. Justifique os mesmos.
    4. Resultados. Sugiro separar em Caracterização (análise exploratória)
      1. Testes de hipótese podem vir aqui.
    5. Previsão (uma ou duas subseções dependendo dos modelos utilizados)
    6. Conclusões
    7. Aqui os pontos são pela organização do relatório! Faça o mesmo em Jupyter ou em Latex
  6. Vídeo no Youtube 5 minutos. Pode ser um vídeo só dos slides!! Com as falas, claro. (3pts).

Bases Sugeridas

  • Bases COVID-19 Brasil
    • https://brasil.io/covid19/
    • https://bigdata-covid19.icict.fiocruz.br/ (Cliquem download csv no gráfico de interesse)
    • https://opendatasus.saude.gov.br/dataset/casos-nacionais
  • Saúde
    • https://www.kaggle.com/russellyates88/suicide-rates-overview-1985-to-2016
  • Esporte
    • https://www.kaggle.com/karangadiya/fifa19
  • Jogos
    • https://www.kaggle.com/chuckephron/leagueoflegends ou
    • https://www.kaggle.com/rounakbanik/pokemon