Atributos numéricos diferentes podem possuir enorme
discrepância de amplitude em um mesmo conjunto de dados. Por exemplo, enquanto a idade de uma pessoa tende
a estar entre 0 e 130 anos, a altura em metros costuma
variar entre 0,5 e 2,5. Em casos assim, alguns modelos
de análise podem dar uma importância muito maior para
a variável de maior amplitude (idade). Para lidar com esse
efeito, é comum o uso de métodos de feature scaling
disponíveis em pacotes Python como o Scikit Learn. Das
opções a seguir, a única que NÃO representa um método
para feature scaling é:

Question

Atributos numéricos diferentes podem possuir enorme
discrepância de amplitude em um mesmo conjunto de dados. Por exemplo, enquanto a idade de uma pessoa tende
a estar entre 0 e 130 anos, a altura em metros costuma
variar entre 0,5 e 2,5. Em casos assim, alguns modelos
de análise podem dar uma importância muito maior para
a variável de maior amplitude (idade). Para lidar com esse
efeito, é comum o uso de métodos de feature scaling
disponíveis em pacotes Python como o Scikit Learn. Das
opções a seguir, a única que NÃO representa um método
para feature scaling é: Alternativa A: Min-Max Scaling. Ou Alternativa B: padronização (Z-Score). Ou Alternativa C: Maximum Absolute Scaling. Ou Alternativa D: Distância de Levenshtein.  Ou Alternativa E: Robust Scaling.

Qconcursos · Accepted Answer

Alternativa [D] Distância de Levenshtein.  Alternativa correta: D - Distância de Levenshtein.

Tema central da questão: A questão aborda o conceito de feature scaling, ou escalonamento de características, uma prática comum no pré-processamento de dados para garantir que todas as variáveis contribuam igualmente para o modelo de análise de dados. Isso é essencial em algoritmos de aprendizado de máquina, como aqueles disponíveis na biblioteca Scikit Learn do Python.

Resumo teórico: Feature scaling é crucial para normalizar dados e evitar que variáveis com grandes amplitudes dominem o modelo de aprendizado. Métodos comuns incluem Min-Max Scaling, que ajusta os dados para um intervalo entre [0, 1], e padronização (Z-Score), que transforma os dados em relação à média e desvio padrão. Outros métodos incluem o Maximum Absolute Scaling, que divide cada elemento pelo valor absoluto máximo, e o Robust Scaling, que é menos sensível a outliers.

Justificativa da alternativa correta: A Distância de Levenshtein não é um método de feature scaling. Ela é uma medida de similaridade utilizada principalmente para calcular a diferença entre duas sequências de caracteres, sendo amplamente aplicada em processamento de texto, não em escalonamento de dados numéricos.

Análise das alternativas incorretas:

A - Min-Max Scaling: Este é um método de feature scaling que normaliza os dados para um intervalo de [0, 1].

B - Padronização (Z-Score): Também um método de escalonamento, este processo transforma os dados para que tenham uma média de 0 e desvio padrão de 1.

C - Maximum Absolute Scaling: Normaliza os dados dividindo-os pelo valor absoluto máximo em cada característica, garantindo que os dados estejam em um intervalo coerente.

E - Robust Scaling: Esse método utiliza a mediana e os quartis, sendo mais robusto a outliers, e também é um método de feature scaling.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

Atributos numéricos diferentes podem possuir enorme discrep...

Gabarito comentado

Clique para visualizar este gabarito

Comentários

Clique para visualizar este comentário

Questões de assuntos semelhantes

Provas relacionadas