Uma equipe de Ciência de Dados do setor público precisa anal...

Próximas questões
Com base no mesmo assunto
Q3781123 Noções de Informática
Uma equipe de Ciência de Dados do setor público precisa analisar um grande dataset de características de cidadãos (alta dimensionalidade) para identificar grupos naturais de comportamento (segmentação) e, posteriormente, reduzir a dimensionalidade dos dados sem perder muita informação.
Sobre as técnicas de Clustering e Redução de Dimensionalidade, avalie as afirmativas a seguir.

I. O algoritmo DBSCAN é mais adequado que o K-Means para datasets com clusters de formato não convexo e tem a vantagem de ser robusto a ruídos e outliers.

II. O algoritmo K-Means exige que o número de clusters (K) seja definido previamente e é sensível à escala das variáveis de entrada e à presença de outliers.

III. A Análise de Componentes Principais (PCA) é uma técnica não supervisionada que é utilizada para redução de dimensionalidade, e deve ser aplicada antes de qualquer etapa de scaling dos dados para preservar a variância.


Está correto o que se afirma em
Alternativas