Atributos numéricos diferentes podem possuir enorme discrep...

Próximas questões
Com base no mesmo assunto
Q3331531 Programação
Atributos numéricos diferentes podem possuir enorme discrepância de amplitude em um mesmo conjunto de dados. Por exemplo, enquanto a idade de uma pessoa tende a estar entre 0 e 130 anos, a altura em metros costuma variar entre 0,5 e 2,5. Em casos assim, alguns modelos de análise podem dar uma importância muito maior para a variável de maior amplitude (idade). Para lidar com esse efeito, é comum o uso de métodos de feature scaling disponíveis em pacotes Python como o Scikit Learn. Das opções a seguir, a única que NÃO representa um método para feature scaling é:
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: D - Distância de Levenshtein.

Tema central da questão: A questão aborda o conceito de feature scaling, ou escalonamento de características, uma prática comum no pré-processamento de dados para garantir que todas as variáveis contribuam igualmente para o modelo de análise de dados. Isso é essencial em algoritmos de aprendizado de máquina, como aqueles disponíveis na biblioteca Scikit Learn do Python.

Resumo teórico: Feature scaling é crucial para normalizar dados e evitar que variáveis com grandes amplitudes dominem o modelo de aprendizado. Métodos comuns incluem Min-Max Scaling, que ajusta os dados para um intervalo entre [0, 1], e padronização (Z-Score), que transforma os dados em relação à média e desvio padrão. Outros métodos incluem o Maximum Absolute Scaling, que divide cada elemento pelo valor absoluto máximo, e o Robust Scaling, que é menos sensível a outliers.

Justificativa da alternativa correta: A Distância de Levenshtein não é um método de feature scaling. Ela é uma medida de similaridade utilizada principalmente para calcular a diferença entre duas sequências de caracteres, sendo amplamente aplicada em processamento de texto, não em escalonamento de dados numéricos.

Análise das alternativas incorretas:

A - Min-Max Scaling: Este é um método de feature scaling que normaliza os dados para um intervalo de [0, 1].

B - Padronização (Z-Score): Também um método de escalonamento, este processo transforma os dados para que tenham uma média de 0 e desvio padrão de 1.

C - Maximum Absolute Scaling: Normaliza os dados dividindo-os pelo valor absoluto máximo em cada característica, garantindo que os dados estejam em um intervalo coerente.

E - Robust Scaling: Esse método utiliza a mediana e os quartis, sendo mais robusto a outliers, e também é um método de feature scaling.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

d-

Levenshtein distance nao se trata de feature scaling; é uma medida de distancia entre 2 sequencias

Die Levenshtein-Distanz zwischen zwei Zeichenketten ist die minimale Anzahl einfügender, löschender und ersetzender Operationen, um die erste Zeichenkette in die zweite umzuwandeln

https://de.wikipedia.org/wiki/Levenshtein-Distanz

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo