Uma equipe está trabalhando em um projeto de análise preditiva com base em dados estruturados provenientes de diferentes
fontes de um Tribunal Regional do Trabalho. Durante a etapa de pré-processamento, o time precisa lidar com valores ausentes/faltantes, escalonar os dados para uniformizar as unidades e selecionar as variáveis mais importantes para treinar um modelo supervisionado. Para realizar estas tarefas nesta etapa, a equipe deve

Question

Uma equipe está trabalhando em um projeto de análise preditiva com base em dados estruturados provenientes de diferentes
fontes de um Tribunal Regional do Trabalho. Durante a etapa de pré-processamento, o time precisa lidar com valores ausentes/faltantes, escalonar os dados para uniformizar as unidades e selecionar as variáveis mais importantes para treinar um modelo supervisionado. Para realizar estas tarefas nesta etapa, a equipe deve  Alternativa A: utilizar uma Convolutional Neural Network (CNN) para preencher valores ausentes, normalizar os dados com a técnica
Principal Component Analysis (PCA) e realizar redução dimensional com regressão logística.  Ou Alternativa B: aplicar a imputação de valores ausentes, escalonar os dados utilizando-se CNN e identificar variáveis importantes por meio
da análise  Ou Alternativa C: preencher os valores ausentes com imputação (média ou mediana), escalonar os dados com standard scaler e realizar a
seleção de variáveis com base na importância de features calculada por um modelo de árvore de decisão.   Ou Alternativa D: remover diretamente todas as linhas com valores ausentes, normalizar os dados com decomposição em valores singulares
(SVD) e utilizar o algoritmo k-means para selecionar variáveis mais relevantes.   Ou Alternativa E: usar o algoritmo supervisionado análise de cluster hierárquico (HCA) para prever valores ausentes, aplicar normalização
z-score nos dados e calcular a importância das variáveis com uma rede neural profunda.

Qconcursos · Accepted Answer

Alternativa [C] preencher os valores ausentes com imputação (média ou mediana), escalonar os dados com standard scaler e realizar a
seleção de variáveis com base na importância de features calculada por um modelo de árvore de decisão.   ```html
Alternativa Correta: C

A questão aborda o pré-processamento de dados em um projeto de análise preditiva. Esse processo é crucial para garantir que os dados estejam prontos para o treinamento de modelos de machine learning. As tarefas mencionadas incluem lidar com valores ausentes, escalonar dados e selecionar variáveis importantes.

Conceitos Fundamentais:

1. Imputação de Valores Ausentes: Trata-se do preenchimento de dados faltantes utilizando métodos como média ou mediana. Isso ajuda a evitar a perda de informações valiosas e melhora a qualidade dos dados.

2. Escalonamento de Dados: Técnicas como Standard Scaler são usadas para normalizar os dados, garantindo que cada feature contribua de forma igual no treinamento do modelo.

3. Seleção de Variáveis: Utilizar a importância de features calculada por um modelo de árvore de decisão é uma forma eficaz de identificar quais variáveis mais influenciam o modelo.

Justificativa da Alternativa Correta (C):

A alternativa C propõe preencher valores ausentes com técnicas de imputação, escalonar dados usando standard scaler e selecionar variáveis através da importância de features em árvores de decisão. Esse fluxo é adequado e comumente utilizado em análises preditivas e treinamento de modelos supervisionados.

Análise das Alternativas Incorretas:

A - Usar CNN para preencher valores ausentes e PCA para normalizar dados está incorreto. CNN é inadequada para imputação de valores e PCA não é uma técnica de normalização, mas de redução de dimensionalidade.

B - Aplicar CNN para escalonar dados não faz sentido, já que CNN é usada em deep learning para processamento de imagens, não para escalonamento de dados numéricos.

D - Remover todas as linhas com valores ausentes pode resultar em perda significativa de dados. SVD é uma técnica de redução de dimensionalidade, não de normalização, e k-means é um algoritmo de clustering, não de seleção de variáveis.

E - HCA não é um algoritmo supervisionado e não é usado para prever valores ausentes. Redes neurais profundas não são comumente usadas para calcular a importância de variáveis diretamente.

Espero que esta explicação tenha sido clara e útil. Gostou do comentário? Deixe sua avaliação aqui embaixo!
```

🚀 Mais performance?

🚀 Mais performance?

Uma equipe está trabalhando em um projeto de análise prediti...

Gabarito comentado

Clique para visualizar este gabarito

Comentários

Clique para visualizar este comentário

Resumos relacionados

SGBD: Conceitos Fundamentais e Aplicações em Concursos Públicos

Questões de assuntos semelhantes

Provas relacionadas