Clusterização de Flores e Detecção de Anomalias no Dataset de Pulsar
Conheça o projeto
Nos tópicos complementares para algoritmos não supervisionados foram apresentados dois modelos/abordagens distintas, uma para clusterização e outra para detecção de anomalias. Para cada um dos modelos foi preparado um desafio e uma solução utilizando “problemas” anteriormente expostos para que vejam que mais de uma abordagem pode gerar resultados para mesmo desafio.
Recursos
Materiais para você usar como base para o desenvolvimento
Instruções
Estrutura, regras e requisitos do projeto
Desafio 1 - GMM para clusterizacao de Flores (Iris Dataset)
Objetivo
Aplicar técnicas de aprendizado não supervisionado para agrupar as amostras do conjunto de dados Iris utilizando o algoritmo GMM (Gaussian Mixture Model), com otimização de hiperparâmetros feita via Optuna.
Neste desafio, você irá explorar uma abordagem probabilística de clustering, onde cada ponto pode pertencer a mais de um grupo com certa probabilidade, ao contrário de métodos baseados em distância fixa como o K-Means.
Dataset
O conjunto de dados Iris contém 150 amostras de flores de três espécies diferentes: Setosa, Versicolor e Virginica. Cada amostra possui quatro atributos numéricos:
- Comprimento da sépala (sepal length)
- Largura da sépala (sepal width)
- Comprimento da pétala (petal length)
- Largura da pétala (petal width)
- Target:
- 0: setosa
- 1: versicolor
- 2: virginica
Você pode importar o dataset diretamente do scikit-learn com o seguinte código:
from sklearn.datasets import load_iris iris = load_iris() X = iris.data # Atributos das flores y = iris.target # Classes reais (usadas apenas para avaliação)
Desafio 2 - Detecção de Anomalia no Dataset Pulsar
Objetivo
Neste desafio, você irá aplicar técnicas de detecção de anomalias utilizando o algoritmo LOF (Local Outlier Factor) no dataset de estrelas pulsar.
O objetivo é identificar exemplos anômalos no conjunto de dados, simulando um cenário onde não se conhece previamente quais objetos são estrelas pulsar e quais não são. Para isso, você utilizará o LOF como método não supervisionado, com foco na identificação de padrões incomuns.
Embora o dataset contenha a coluna target_class com os rótulos reais, considere inicialmente que essa informação não está disponível para o modelo. Ela poderá ser usada posteriormente para avaliar a qualidade da detecção de anomalias.
Sobre o Dataset
O dataset contém medidas extraídas de observações astronômicas, com o intuito de classificar se uma determinada amostra corresponde ou não a uma estrela pulsar.
Cada linha representa uma observação, e as colunas contêm estatísticas extraídas de séries temporais do sinal de rádio de possíveis pulsares.
Colunas do Dataset
| Coluna | Descrição |
|---|---|
Mean of the integrated profile | Média do perfil integrado do sinal. |
Standard deviation of the integrated profile | Desvio padrão do perfil integrado. |
Excess kurtosis of the integrated profile | Curtose do perfil integrado. |
Skewness of the integrated profile | Assimetria (skewness) do perfil integrado. |
Mean of the DM-SNR curve | Média da curva DM-SNR (Signal-to-Noise Ratio). |
Standard deviation of the DM-SNR curve | Desvio padrão da curva DM-SNR. |
Excess kurtosis of the DM-SNR curve | Curtose da curva DM-SNR. |
Skewness of the DM-SNR curve | Assimetria da curva DM-SNR. |
target_class | Classe real do objeto: 1 indica estrela pulsar, 0 indica não-pulsar. Usada apenas para avaliação. |
Observação para esse desafio
O dataset desse desafio se encontra compactado na seção de recursos, é necessário extrair primeiro.
Entrega
Após concluir o desafio, você deve enviar a URL do seu código no GitHub para a plataforma.
Além disso, que tal fazer um post no LinkedIn compartilhando o seu aprendizado e contando como foi a experiência?
É uma excelente forma de demonstrar seus conhecimentos e atrair novas oportunidades!
Feito com 💜 por Rocketseat 👋
Desafio 1 - GMM para clusterizacao de Flores (Iris Dataset)
Objetivo
Aplicar técnicas de aprendizado não supervisionado para agrupar as amostras do conjunto de dados Iris utilizando o algoritmo GMM (Gaussian Mixture Model), com otimização de hiperparâmetros feita via Optuna.
Neste desafio, você irá explorar uma abordagem probabilística de clustering, onde cada ponto pode pertencer a mais de um grupo com certa probabilidade, ao contrário de métodos baseados em distância fixa como o K-Means.
Dataset
O conjunto de dados Iris contém 150 amostras de flores de três espécies diferentes: Setosa, Versicolor e Virginica. Cada amostra possui quatro atributos numéricos:
- Comprimento da sépala (sepal length)
- Largura da sépala (sepal width)
- Comprimento da pétala (petal length)
- Largura da pétala (petal width)
- Target:
- 0: setosa
- 1: versicolor
- 2: virginica
Você pode importar o dataset diretamente do scikit-learn com o seguinte código:
from sklearn.datasets import load_iris iris = load_iris() X = iris.data # Atributos das flores y = iris.target # Classes reais (usadas apenas para avaliação)
Desafio 2 - Detecção de Anomalia no Dataset Pulsar
Objetivo
Neste desafio, você irá aplicar técnicas de detecção de anomalias utilizando o algoritmo LOF (Local Outlier Factor) no dataset de estrelas pulsar.
O objetivo é identificar exemplos anômalos no conjunto de dados, simulando um cenário onde não se conhece previamente quais objetos são estrelas pulsar e quais não são. Para isso, você utilizará o LOF como método não supervisionado, com foco na identificação de padrões incomuns.
Embora o dataset contenha a coluna target_class com os rótulos reais, considere inicialmente que essa informação não está disponível para o modelo. Ela poderá ser usada posteriormente para avaliar a qualidade da detecção de anomalias.
Sobre o Dataset
O dataset contém medidas extraídas de observações astronômicas, com o intuito de classificar se uma determinada amostra corresponde ou não a uma estrela pulsar.
Cada linha representa uma observação, e as colunas contêm estatísticas extraídas de séries temporais do sinal de rádio de possíveis pulsares.
Colunas do Dataset
| Coluna | Descrição |
|---|---|
Mean of the integrated profile | Média do perfil integrado do sinal. |
Standard deviation of the integrated profile | Desvio padrão do perfil integrado. |
Excess kurtosis of the integrated profile | Curtose do perfil integrado. |
Skewness of the integrated profile | Assimetria (skewness) do perfil integrado. |
Mean of the DM-SNR curve | Média da curva DM-SNR (Signal-to-Noise Ratio). |
Standard deviation of the DM-SNR curve | Desvio padrão da curva DM-SNR. |
Excess kurtosis of the DM-SNR curve | Curtose da curva DM-SNR. |
Skewness of the DM-SNR curve | Assimetria da curva DM-SNR. |
target_class | Classe real do objeto: 1 indica estrela pulsar, 0 indica não-pulsar. Usada apenas para avaliação. |
Observação para esse desafio
O dataset desse desafio se encontra compactado na seção de recursos, é necessário extrair primeiro.
Entrega
Após concluir o desafio, você deve enviar a URL do seu código no GitHub para a plataforma.
Além disso, que tal fazer um post no LinkedIn compartilhando o seu aprendizado e contando como foi a experiência?
É uma excelente forma de demonstrar seus conhecimentos e atrair novas oportunidades!
Feito com 💜 por Rocketseat 👋
Tarefas
Use este checklist para ajudar a organizar a sua entrega
Resolução
Confira os resultados esperados do projeto

Envie o projeto para ver a resolução
Ao enviar seu projeto, você poderá conferir os resultados esperados