Clusterização de Flores e Detecção de Anomalias no Dataset de Pulsar

Clusterização de Flores e Detecção de Anomalias no Dataset de Pulsar

Conheça o projeto

Nos tópicos complementares para algoritmos não supervisionados foram apresentados dois modelos/abordagens distintas, uma para clusterização e outra para detecção de anomalias. Para cada um dos modelos foi preparado um desafio e uma solução utilizando “problemas” anteriormente expostos para que vejam que mais de uma abordagem pode gerar resultados para mesmo desafio.

Recursos

Materiais para você usar como base para o desenvolvimento

Instruções

Estrutura, regras e requisitos do projeto

Desafio 1 - GMM para clusterizacao de Flores (Iris Dataset)

Objetivo

Aplicar técnicas de aprendizado não supervisionado para agrupar as amostras do conjunto de dados Iris utilizando o algoritmo GMM (Gaussian Mixture Model), com otimização de hiperparâmetros feita via Optuna.

Neste desafio, você irá explorar uma abordagem probabilística de clustering, onde cada ponto pode pertencer a mais de um grupo com certa probabilidade, ao contrário de métodos baseados em distância fixa como o K-Means.

Dataset

O conjunto de dados Iris contém 150 amostras de flores de três espécies diferentes: Setosa, Versicolor e Virginica. Cada amostra possui quatro atributos numéricos:

  • Comprimento da sépala (sepal length)
  • Largura da sépala (sepal width)
  • Comprimento da pétala (petal length)
  • Largura da pétala (petal width)
  • Target:
    • 0: setosa
    • 1: versicolor
    • 2: virginica

Você pode importar o dataset diretamente do scikit-learn com o seguinte código:

from sklearn.datasets import load_iris iris = load_iris() X = iris.data # Atributos das flores y = iris.target # Classes reais (usadas apenas para avaliação)

Desafio 2 - Detecção de Anomalia no Dataset Pulsar

Objetivo

Neste desafio, você irá aplicar técnicas de detecção de anomalias utilizando o algoritmo LOF (Local Outlier Factor) no dataset de estrelas pulsar.

O objetivo é identificar exemplos anômalos no conjunto de dados, simulando um cenário onde não se conhece previamente quais objetos são estrelas pulsar e quais não são. Para isso, você utilizará o LOF como método não supervisionado, com foco na identificação de padrões incomuns.

Embora o dataset contenha a coluna target_class com os rótulos reais, considere inicialmente que essa informação não está disponível para o modelo. Ela poderá ser usada posteriormente para avaliar a qualidade da detecção de anomalias.

Sobre o Dataset

O dataset contém medidas extraídas de observações astronômicas, com o intuito de classificar se uma determinada amostra corresponde ou não a uma estrela pulsar.

Cada linha representa uma observação, e as colunas contêm estatísticas extraídas de séries temporais do sinal de rádio de possíveis pulsares.

Colunas do Dataset

ColunaDescrição
Mean of the integrated profileMédia do perfil integrado do sinal.
Standard deviation of the integrated profileDesvio padrão do perfil integrado.
Excess kurtosis of the integrated profileCurtose do perfil integrado.
Skewness of the integrated profileAssimetria (skewness) do perfil integrado.
Mean of the DM-SNR curveMédia da curva DM-SNR (Signal-to-Noise Ratio).
Standard deviation of the DM-SNR curveDesvio padrão da curva DM-SNR.
Excess kurtosis of the DM-SNR curveCurtose da curva DM-SNR.
Skewness of the DM-SNR curveAssimetria da curva DM-SNR.
target_classClasse real do objeto: 1 indica estrela pulsar, 0 indica não-pulsar. Usada apenas para avaliação.

Observação para esse desafio

O dataset desse desafio se encontra compactado na seção de recursos, é necessário extrair primeiro.


Entrega

Após concluir o desafio, você deve enviar a URL do seu código no GitHub para a plataforma.

Além disso, que tal fazer um post no LinkedIn compartilhando o seu aprendizado e contando como foi a experiência?

É uma excelente forma de demonstrar seus conhecimentos e atrair novas oportunidades!

Feito com 💜 por Rocketseat 👋

Tarefas

Use este checklist para ajudar a organizar a sua entrega

Resolução

Confira os resultados esperados do projeto

Paywall background

Envie o projeto para ver a resolução

Ao enviar seu projeto, você poderá conferir os resultados esperados

Projetos relacionados