Uma equipe está trabalhando em um projeto de análise prediti...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa Correta: C
A questão aborda o pré-processamento de dados em um projeto de análise preditiva. Esse processo é crucial para garantir que os dados estejam prontos para o treinamento de modelos de machine learning. As tarefas mencionadas incluem lidar com valores ausentes, escalonar dados e selecionar variáveis importantes.
Conceitos Fundamentais:
1. Imputação de Valores Ausentes: Trata-se do preenchimento de dados faltantes utilizando métodos como média ou mediana. Isso ajuda a evitar a perda de informações valiosas e melhora a qualidade dos dados.
2. Escalonamento de Dados: Técnicas como Standard Scaler são usadas para normalizar os dados, garantindo que cada feature contribua de forma igual no treinamento do modelo.
3. Seleção de Variáveis: Utilizar a importância de features calculada por um modelo de árvore de decisão é uma forma eficaz de identificar quais variáveis mais influenciam o modelo.
Justificativa da Alternativa Correta (C):
A alternativa C propõe preencher valores ausentes com técnicas de imputação, escalonar dados usando standard scaler e selecionar variáveis através da importância de features em árvores de decisão. Esse fluxo é adequado e comumente utilizado em análises preditivas e treinamento de modelos supervisionados.
Análise das Alternativas Incorretas:
A - Usar CNN para preencher valores ausentes e PCA para normalizar dados está incorreto. CNN é inadequada para imputação de valores e PCA não é uma técnica de normalização, mas de redução de dimensionalidade.
B - Aplicar CNN para escalonar dados não faz sentido, já que CNN é usada em deep learning para processamento de imagens, não para escalonamento de dados numéricos.
D - Remover todas as linhas com valores ausentes pode resultar em perda significativa de dados. SVD é uma técnica de redução de dimensionalidade, não de normalização, e k-means é um algoritmo de clustering, não de seleção de variáveis.
E - HCA não é um algoritmo supervisionado e não é usado para prever valores ausentes. Redes neurais profundas não são comumente usadas para calcular a importância de variáveis diretamente.
Espero que esta explicação tenha sido clara e útil. Gostou do comentário? Deixe sua avaliação aqui embaixo!
```Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
A alternativa correta é C.
Explicação:
- Preenchimento de valores ausentes com imputação (média ou mediana): Esta é uma técnica comum e eficaz para lidar com dados faltantes em conjuntos de dados estruturados, evitando a perda de informações que ocorreria com a remoção de linhas inteiras.
- Escalonamento dos dados com standard scaler: O Standard Scaler (padronização Z-score) uniformiza a escala das variáveis, o que é crucial para muitos algoritmos de aprendizado de máquina, especialmente aqueles sensíveis à magnitude das features.
- Realização da seleção de variáveis com base na importância de features calculada por um modelo de árvore de decisão: Modelos de árvore de decisão, como Random Forest ou Gradient Boosting, podem fornecer uma medida da importância de cada variável na tarefa de previsão. Essa informação é valiosa para selecionar as variáveis mais relevantes para treinar o modelo supervisionado final, reduzindo a dimensionalidade e potencialmente melhorando o desempenho e a interpretabilidade do modelo.
So complementando, não poderia ser a e) pois CLUSTER = NÃO SUPERVISIONADO, a) pois redução dimensional = PCA
As outras alternativas falham por misturar algoritmos de treinamento complexos ou incorretos em tarefas de tratamento/preparação simples. Tem alternativa que tá sugerindo até usar deep learning como as CNN's para uma tarefa simples. CNN's geralmente são utilizadas em modelo de visão computacional ou séries temporais, não com dados tabulares simples. Enquanto que a Alternativa C utiliza as ferramentas mais diretas e adequadas.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo