Conheça o projeto
Implemente, do zero, um sistema de tratamento de dados em Python, utilizando um arquivo CSV. O sistema deve carregar os dados, exibir informações básicas, tratar dados ausentes, detectar e tratar duplicatas, analisar outliers, aplicar normalização e encoding, e trabalhar com datas. Opcionalmente, pode gerar visualizações e relatórios.
Recursos
Materiais para você usar como base para o desenvolvimento
Instruções
Estrutura, regras e requisitos do projeto
Faaala Dev,
Chegou a hora de colocar em prática tudo o que aprendemos sobre tratamento de dados 🧹📊
Neste desafio, você vai atuar como analista de dados da empresa fictícia DataClean Co., responsável por garantir que os conjuntos de dados usados nas análises sejam confiáveis, limpos e prontos para gerar insights de qualidade.
O time de negócios enviou um arquivo com informações de clientes, produtos e vendas, mas o conjunto contém valores ausentes, duplicatas, outliers e inconsistências — e sua missão é deixá-lo pronto para futuras análises!
Como todo bom desafio, talvez você precise explorar alguns conceitos novos ou revisar conteúdos vistos nas aulas. Então lembre-se: pesquise, teste e explore. Isso faz parte do processo! 💪
Tenha paciência e acredite no seu progresso. O aprendizado adquirido aqui será essencial na sua jornada como analista de dados 🚀
Sobre o desafio
A empresa fictícia DataClean Co. te enviou o arquivo dados_clientes.csv, contendo o histórico de clientes e suas compras.
Sua missão é aplicar as principais técnicas de tratamento de dados vistas no módulo, deixando o dataset pronto para uma análise exploratória e visualizações posteriores.
Regras da aplicação
Você deverá:
- Carregar os dados a partir do arquivo
dados_clientes.csv. - Exibir informações básicas:
- Mostrar as 5 primeiras linhas.
- Exibir o número total de registros e colunas.
- Identificar os tipos de dados de cada coluna.
- Tratar dados ausentes:
- Identificar colunas com valores nulos.
- Substituir, remover ou preencher valores ausentes de forma adequada.
- Detectar e tratar duplicatas:
- Verificar se há registros duplicados.
- Remover duplicatas mantendo os dados mais relevantes.
- Analisar outliers:
- Utilizar boxplots e quartis para identificar outliers em colunas numéricas.
- Decidir se os valores devem ser removidos, substituídos ou mantidos.
- Aplicar normalização e encoding:
- Normalizar colunas numéricas (por exemplo, preço, idade ou renda).
- Converter colunas categóricas em variáveis numéricas com encoding.
- Trabalhar com datas:
- Converter colunas de data para o formato correto.
- Criar colunas derivadas (ex: ano, mês, dia da semana).
Modelo de dados (arquivo dados_clientes.csv)
O arquivo dados_clientes.csv contém informações de clientes, produtos e vendas. As colunas esperadas podem incluir, mas não se limitam a:
id_cliente(inteiro)nome(string)idade(inteiro)genero(string)renda(float)produto(string)categoria_produto(string)valor_gasto(float)data_compra(data)regiao(string)
Como executar
- Salve o código Python em um arquivo ou Jupiter Notebook (ex:
tratamento_dados.py). - Certifique-se de que o arquivo
dados_clientes.csvesteja no mesmo diretório. - Execute o script Python no terminal ou no Colab:
python tratamento_dados.py
Se quiser se desafiar 💡
- Gerar visualizações:
- Histograma mostrando a distribuição da renda dos clientes.
- Boxplot comparando o gasto médio por categoria de produto.
- Scatterplot mostrando a relação entre idade e valor gasto.
- Heatmap de correlação entre variáveis numéricas.
- Extra (opcional):
- Exportar o dataset final limpo para um novo arquivo
.csv. - Criar um relatório em
.xlsxou.pdfmostrando o antes e depois do tratamento.
- Exportar o dataset final limpo para um novo arquivo
Entrega
Após concluir o desafio, você deve enviar a URL do seu código no GitHub para a plataforma.
Além disso, que tal fazer um post no LinkedIn compartilhando o seu aprendizado e contando como foi a experiência?
É uma excelente forma de demonstrar seus conhecimentos e atrair novas oportunidades!
Feito com 💜 por Rocketseat 👋
Faaala Dev,
Chegou a hora de colocar em prática tudo o que aprendemos sobre tratamento de dados 🧹📊
Neste desafio, você vai atuar como analista de dados da empresa fictícia DataClean Co., responsável por garantir que os conjuntos de dados usados nas análises sejam confiáveis, limpos e prontos para gerar insights de qualidade.
O time de negócios enviou um arquivo com informações de clientes, produtos e vendas, mas o conjunto contém valores ausentes, duplicatas, outliers e inconsistências — e sua missão é deixá-lo pronto para futuras análises!
Como todo bom desafio, talvez você precise explorar alguns conceitos novos ou revisar conteúdos vistos nas aulas. Então lembre-se: pesquise, teste e explore. Isso faz parte do processo! 💪
Tenha paciência e acredite no seu progresso. O aprendizado adquirido aqui será essencial na sua jornada como analista de dados 🚀
Sobre o desafio
A empresa fictícia DataClean Co. te enviou o arquivo dados_clientes.csv, contendo o histórico de clientes e suas compras.
Sua missão é aplicar as principais técnicas de tratamento de dados vistas no módulo, deixando o dataset pronto para uma análise exploratória e visualizações posteriores.
Regras da aplicação
Você deverá:
- Carregar os dados a partir do arquivo
dados_clientes.csv. - Exibir informações básicas:
- Mostrar as 5 primeiras linhas.
- Exibir o número total de registros e colunas.
- Identificar os tipos de dados de cada coluna.
- Tratar dados ausentes:
- Identificar colunas com valores nulos.
- Substituir, remover ou preencher valores ausentes de forma adequada.
- Detectar e tratar duplicatas:
- Verificar se há registros duplicados.
- Remover duplicatas mantendo os dados mais relevantes.
- Analisar outliers:
- Utilizar boxplots e quartis para identificar outliers em colunas numéricas.
- Decidir se os valores devem ser removidos, substituídos ou mantidos.
- Aplicar normalização e encoding:
- Normalizar colunas numéricas (por exemplo, preço, idade ou renda).
- Converter colunas categóricas em variáveis numéricas com encoding.
- Trabalhar com datas:
- Converter colunas de data para o formato correto.
- Criar colunas derivadas (ex: ano, mês, dia da semana).
Modelo de dados (arquivo dados_clientes.csv)
O arquivo dados_clientes.csv contém informações de clientes, produtos e vendas. As colunas esperadas podem incluir, mas não se limitam a:
id_cliente(inteiro)nome(string)idade(inteiro)genero(string)renda(float)produto(string)categoria_produto(string)valor_gasto(float)data_compra(data)regiao(string)
Como executar
- Salve o código Python em um arquivo ou Jupiter Notebook (ex:
tratamento_dados.py). - Certifique-se de que o arquivo
dados_clientes.csvesteja no mesmo diretório. - Execute o script Python no terminal ou no Colab:
python tratamento_dados.py
Se quiser se desafiar 💡
- Gerar visualizações:
- Histograma mostrando a distribuição da renda dos clientes.
- Boxplot comparando o gasto médio por categoria de produto.
- Scatterplot mostrando a relação entre idade e valor gasto.
- Heatmap de correlação entre variáveis numéricas.
- Extra (opcional):
- Exportar o dataset final limpo para um novo arquivo
.csv. - Criar um relatório em
.xlsxou.pdfmostrando o antes e depois do tratamento.
- Exportar o dataset final limpo para um novo arquivo
Entrega
Após concluir o desafio, você deve enviar a URL do seu código no GitHub para a plataforma.
Além disso, que tal fazer um post no LinkedIn compartilhando o seu aprendizado e contando como foi a experiência?
É uma excelente forma de demonstrar seus conhecimentos e atrair novas oportunidades!
Feito com 💜 por Rocketseat 👋
Tarefas
Use este checklist para ajudar a organizar a sua entrega
Resolução
Confira os resultados esperados do projeto

Envie o projeto para ver a resolução
Ao enviar seu projeto, você poderá conferir os resultados esperados