Conheça o projeto
Implemente, utilizando pytorch, um sistema de previsão de valores de imóveis utilizando Perceptron Multicamadas (MLP) em Python. O sistema deve carregar os dados do Dataset California Housing, realizar pré-processamento, treinar uma rede neural para regressão e avaliar os resultados.
Instruções
Estrutura, regras e requisitos do projeto
Utilizar um modelo Perceptron Multicamadas (MLP) para realizar uma tarefa de regressão no Dataset California Housing.
Objetivo
Treinar o MLP para prever o valor mediano das casas (median_house_value) em distritos da Califórnia, com base em suas características.
O Dataset California Housing
Dataset clássico de aprendizado de máquina, ideal para introdução a regressão e redes neurais.
Disponibilidade: O dataset pode ser acessado diretamente no Google Colab, geralmente dentro do diretório sample_data, ou através dos arquivos CSV fornecidos (california_housing_train.csv e california_housing_test.csv).
Atributos do Dataset
A tabela abaixo descreve as features (entradas) e a variável alvo (saída) para o modelo MLP:
| Atributo | Descrição | Variável |
|---|---|---|
longitude | Medida de quão oeste o distrito está. | Entrada |
latitude | Medida de quão ao norte o distrito está. | Entrada |
housing_median_age | Idade mediana das casas no distrito. | Entrada |
total_rooms | Número total de cômodos. | Entrada |
total_bedrooms | Número total de quartos. | Entrada |
population | População total. | Entrada |
households | Número total de famílias. | Entrada |
median_income | Renda mediana das famílias (em dezenas de milhar de dólares). | Entrada |
median_house_value | Valor mediano das casas (em dólares). | Alvo (Saída) |
Requisitos
- Carregar os dados de treino e teste dos arquivos CSV
- Realizar análise exploratória básica:
- Exibir informações sobre o dataset (dimensões, tipos de dados)
- Verificar valores ausentes
- Exibir estatísticas descritivas
- Implementar pré-processamento dos dados:
- Separar features (X) e variável alvo (y)
- Aplicar transformação nos dados de treino, avaliação e teste (Padronização ou Normalização)
- Construir e treinar o modelo MLP:
- Definir arquitetura com pelo menos uma camada oculta
- Configurar função de perda MSE
- Treinar o modelo
- Avaliar o modelo:
- Calcular RMSE no conjunto de teste
- Exibir métricas de performance
Diretrizes para o MLP
- Pré-processamento: É obrigatório aplicar escalonamento (Padronização ou Normalização) aos dados de entrada, pois o MLP é sensível à magnitude das features.
- Arquitetura: Construir uma Rede Neural MLP com pelo menos uma camada oculta.
- Configuração de Ativação: O uso da função ReLU nas camadas ocultas é sugerido por ser um bom ponto de partida. No entanto, você é livre para experimentar outras funções de ativação, como Sigmoide ou Tanh, para comparar resultados.
- Função de Perda: Utilizar a função de perda MSE (Erro Quadrático Médio) para otimização.
- Avaliação: Avaliar a performance do modelo usando o conjunto de teste, focando na métrica RMSE (Raiz do Erro Quadrático Médio).
Passo a passo recomendado
- Carregue os dados e realize a análise exploratória.
- Implemente o pré-processamento com escalonamento.
- Construa a arquitetura do MLP (defina número de camadas e neurônios).
- Treine o modelo com os dados de treino e avaliação.
- Avalie o modelo final no conjunto de teste usando RMSE.
- Experimente diferentes configurações (camadas, neurônios, funções de ativação).
Como executar
- Abra o notebook no Jupyter/Colab.
- Faça upload dos arquivos
california_housing_train.csvecalifornia_housing_test.csv. - Execute as células com as funções de carregamento, pré-processamento e treinamento.
- Analise os resultados e métricas de avaliação.
Entrega
Após concluir o desafio, você deve enviar a URL do seu código no GitHub para a plataforma.
Além disso, que tal fazer um post no LinkedIn compartilhando o seu aprendizado e contando como foi a experiência?
É uma excelente forma de demonstrar seus conhecimentos e atrair novas oportunidades!
Feito com 💜 por Rocketseat 👋
Utilizar um modelo Perceptron Multicamadas (MLP) para realizar uma tarefa de regressão no Dataset California Housing.
Objetivo
Treinar o MLP para prever o valor mediano das casas (median_house_value) em distritos da Califórnia, com base em suas características.
O Dataset California Housing
Dataset clássico de aprendizado de máquina, ideal para introdução a regressão e redes neurais.
Disponibilidade: O dataset pode ser acessado diretamente no Google Colab, geralmente dentro do diretório sample_data, ou através dos arquivos CSV fornecidos (california_housing_train.csv e california_housing_test.csv).
Atributos do Dataset
A tabela abaixo descreve as features (entradas) e a variável alvo (saída) para o modelo MLP:
| Atributo | Descrição | Variável |
|---|---|---|
longitude | Medida de quão oeste o distrito está. | Entrada |
latitude | Medida de quão ao norte o distrito está. | Entrada |
housing_median_age | Idade mediana das casas no distrito. | Entrada |
total_rooms | Número total de cômodos. | Entrada |
total_bedrooms | Número total de quartos. | Entrada |
population | População total. | Entrada |
households | Número total de famílias. | Entrada |
median_income | Renda mediana das famílias (em dezenas de milhar de dólares). | Entrada |
median_house_value | Valor mediano das casas (em dólares). | Alvo (Saída) |
Requisitos
- Carregar os dados de treino e teste dos arquivos CSV
- Realizar análise exploratória básica:
- Exibir informações sobre o dataset (dimensões, tipos de dados)
- Verificar valores ausentes
- Exibir estatísticas descritivas
- Implementar pré-processamento dos dados:
- Separar features (X) e variável alvo (y)
- Aplicar transformação nos dados de treino, avaliação e teste (Padronização ou Normalização)
- Construir e treinar o modelo MLP:
- Definir arquitetura com pelo menos uma camada oculta
- Configurar função de perda MSE
- Treinar o modelo
- Avaliar o modelo:
- Calcular RMSE no conjunto de teste
- Exibir métricas de performance
Diretrizes para o MLP
- Pré-processamento: É obrigatório aplicar escalonamento (Padronização ou Normalização) aos dados de entrada, pois o MLP é sensível à magnitude das features.
- Arquitetura: Construir uma Rede Neural MLP com pelo menos uma camada oculta.
- Configuração de Ativação: O uso da função ReLU nas camadas ocultas é sugerido por ser um bom ponto de partida. No entanto, você é livre para experimentar outras funções de ativação, como Sigmoide ou Tanh, para comparar resultados.
- Função de Perda: Utilizar a função de perda MSE (Erro Quadrático Médio) para otimização.
- Avaliação: Avaliar a performance do modelo usando o conjunto de teste, focando na métrica RMSE (Raiz do Erro Quadrático Médio).
Passo a passo recomendado
- Carregue os dados e realize a análise exploratória.
- Implemente o pré-processamento com escalonamento.
- Construa a arquitetura do MLP (defina número de camadas e neurônios).
- Treine o modelo com os dados de treino e avaliação.
- Avalie o modelo final no conjunto de teste usando RMSE.
- Experimente diferentes configurações (camadas, neurônios, funções de ativação).
Como executar
- Abra o notebook no Jupyter/Colab.
- Faça upload dos arquivos
california_housing_train.csvecalifornia_housing_test.csv. - Execute as células com as funções de carregamento, pré-processamento e treinamento.
- Analise os resultados e métricas de avaliação.
Entrega
Após concluir o desafio, você deve enviar a URL do seu código no GitHub para a plataforma.
Além disso, que tal fazer um post no LinkedIn compartilhando o seu aprendizado e contando como foi a experiência?
É uma excelente forma de demonstrar seus conhecimentos e atrair novas oportunidades!
Feito com 💜 por Rocketseat 👋
Tarefas
Use este checklist para ajudar a organizar a sua entrega