Limpeza de Dados da DataClean

Limpeza de Dados da DataClean

Conheça o projeto

Implemente, do zero, um sistema de tratamento de dados em Python, utilizando um arquivo CSV. O sistema deve carregar os dados, exibir informações básicas, tratar dados ausentes, detectar e tratar duplicatas, analisar outliers, aplicar normalização e encoding, e trabalhar com datas. Opcionalmente, pode gerar visualizações e relatórios.

Recursos

Materiais para você usar como base para o desenvolvimento

Instruções

Estrutura, regras e requisitos do projeto

Faaala Dev,

Chegou a hora de colocar em prática tudo o que aprendemos sobre tratamento de dados 🧹📊

Neste desafio, você vai atuar como analista de dados da empresa fictícia DataClean Co., responsável por garantir que os conjuntos de dados usados nas análises sejam confiáveis, limpos e prontos para gerar insights de qualidade.

O time de negócios enviou um arquivo com informações de clientes, produtos e vendas, mas o conjunto contém valores ausentes, duplicatas, outliers e inconsistências — e sua missão é deixá-lo pronto para futuras análises!

Como todo bom desafio, talvez você precise explorar alguns conceitos novos ou revisar conteúdos vistos nas aulas. Então lembre-se: pesquise, teste e explore. Isso faz parte do processo! 💪

Tenha paciência e acredite no seu progresso. O aprendizado adquirido aqui será essencial na sua jornada como analista de dados 🚀


Sobre o desafio

A empresa fictícia DataClean Co. te enviou o arquivo dados_clientes.csv, contendo o histórico de clientes e suas compras.

Sua missão é aplicar as principais técnicas de tratamento de dados vistas no módulo, deixando o dataset pronto para uma análise exploratória e visualizações posteriores.


Regras da aplicação

Você deverá:

  • Carregar os dados a partir do arquivo dados_clientes.csv.
  • Exibir informações básicas:
    • Mostrar as 5 primeiras linhas.
    • Exibir o número total de registros e colunas.
    • Identificar os tipos de dados de cada coluna.
  • Tratar dados ausentes:
    • Identificar colunas com valores nulos.
    • Substituir, remover ou preencher valores ausentes de forma adequada.
  • Detectar e tratar duplicatas:
    • Verificar se há registros duplicados.
    • Remover duplicatas mantendo os dados mais relevantes.
  • Analisar outliers:
    • Utilizar boxplots e quartis para identificar outliers em colunas numéricas.
    • Decidir se os valores devem ser removidos, substituídos ou mantidos.
  • Aplicar normalização e encoding:
    • Normalizar colunas numéricas (por exemplo, preço, idade ou renda).
    • Converter colunas categóricas em variáveis numéricas com encoding.
  • Trabalhar com datas:
    • Converter colunas de data para o formato correto.
    • Criar colunas derivadas (ex: ano, mês, dia da semana).

Modelo de dados (arquivo dados_clientes.csv)

O arquivo dados_clientes.csv contém informações de clientes, produtos e vendas. As colunas esperadas podem incluir, mas não se limitam a:

  • id_cliente (inteiro)
  • nome (string)
  • idade (inteiro)
  • genero (string)
  • renda (float)
  • produto (string)
  • categoria_produto (string)
  • valor_gasto (float)
  • data_compra (data)
  • regiao (string)

Como executar

  1. Salve o código Python em um arquivo ou Jupiter Notebook (ex: tratamento_dados.py).
  2. Certifique-se de que o arquivo dados_clientes.csv esteja no mesmo diretório.
  3. Execute o script Python no terminal ou no Colab: python tratamento_dados.py

Se quiser se desafiar 💡

  • Gerar visualizações:
    • Histograma mostrando a distribuição da renda dos clientes.
    • Boxplot comparando o gasto médio por categoria de produto.
    • Scatterplot mostrando a relação entre idade e valor gasto.
    • Heatmap de correlação entre variáveis numéricas.
  • Extra (opcional):
    • Exportar o dataset final limpo para um novo arquivo .csv.
    • Criar um relatório em .xlsx ou .pdf mostrando o antes e depois do tratamento.

Entrega

Após concluir o desafio, você deve enviar a URL do seu código no GitHub para a plataforma.

Além disso, que tal fazer um post no LinkedIn compartilhando o seu aprendizado e contando como foi a experiência?

É uma excelente forma de demonstrar seus conhecimentos e atrair novas oportunidades!

Feito com 💜 por Rocketseat 👋

Tarefas

Use este checklist para ajudar a organizar a sua entrega

Resolução

Confira os resultados esperados do projeto

Paywall background

Envie o projeto para ver a resolução

Ao enviar seu projeto, você poderá conferir os resultados esperados

Projetos relacionados