No processo de descoberta de conhecimento em bases de
dados, a qualidade dos resultados obtidos pelos algoritmos de
aprendizado de máquina está diretamente vinculada à qualidade
dos dados de entrada. Dados provenientes de fontes
heterogêneas, frequentemente, apresentam ruídos, redundâncias
e lacunas que podem enviesar as análises estatísticas.
Dentro do fluxo de trabalho de Ciência de Dados, o conjunto de
operações que envolve o tratamento de dados faltantes
(null/missing values), a normalização de formatos, a remoção de
registros redundantes e a correção de erros de digitação ou
inconsistências lógicas é tecnicamente denominado

Question

No processo de descoberta de conhecimento em bases de
dados, a qualidade dos resultados obtidos pelos algoritmos de
aprendizado de máquina está diretamente vinculada à qualidade
dos dados de entrada. Dados provenientes de fontes
heterogêneas, frequentemente, apresentam ruídos, redundâncias
e lacunas que podem enviesar as análises estatísticas.
Dentro do fluxo de trabalho de Ciência de Dados, o conjunto de
operações que envolve o tratamento de dados faltantes
(null/missing values), a normalização de formatos, a remoção de
registros redundantes e a correção de erros de digitação ou
inconsistências lógicas é tecnicamente denominado Alternativa A: limpeza de dados (Data Cleaning).  Ou Alternativa B: mineração de dados (Data Mining). Ou Alternativa C: análise exploratória de dados (EDA). Ou Alternativa D: integração de dados (Data Integration).  Ou Alternativa E: engenharia de atributos (Feature Engineering).

Qconcursos · Accepted Answer

Alternativa [A] limpeza de dados (Data Cleaning).  Gabarito: AO que precisava saber: Era necessário distinguir limpeza de dados das demais etapas do fluxo de trabalho. Limpeza de dados é o processo de tratar problemas de qualidade, como dados faltantes, duplicidades, ruídos, inconsistências, erros de registro e padronização de formatos, para tornar a base adequada à análise.Critério decisivo: A descrição do enunciado reúne operações de correção e padronização dos dados brutos — tratamento de valores ausentes, normalização de formatos, remoção de redundâncias e correção de erros e inconsistências —, o que caracteriza limpeza de dados (Data Cleaning).Tema central: Tratamento e saneamento de dados antes da análise/modelagem em Ciência de Dados e ETL.Análise das alternativasACertaA alternativa A está correta porque nomeia exatamente o processo descrito no enunciado: o tratamento de dados faltantes, inconsistências, redundâncias, erros de digitação e padronização de formatos. Pela base, esse conjunto de procedimentos corresponde à limpeza de dados, cuja finalidade é sanear problemas de qualidade antes da análise ou modelagem.BErradaData Mining está ligado à descoberta de padrões e conhecimento nos dados. A base afirma que mineração de dados não é a etapa de saneamento da base; ela ocorre depois da preparação, enquanto o enunciado descreve correção e preparação dos dados.CErradaEDA é a etapa de exploração e descrição da estrutura dos dados. Segundo a base, ela não é o nome técnico do tratamento de falhas, redundâncias e inconsistências, que é justamente o foco do enunciado.DErradaData Integration refere-se à combinação de fontes distintas em uma base unificada. A base destaca que a questão enfatiza o saneamento dos dados — correções, remoção de duplicidades, tratamento de ausências e inconsistências —, e não apenas a junção de fontes.EErradaFeature Engineering envolve criação ou transformação de atributos para melhorar a modelagem. Pela base, isso não corresponde ao tratamento básico de erros, ausências, duplicidades e padronização descrito no enunciado.Pegadinha da questãoA principal confusão está em citar fontes heterogêneas e descoberta de conhecimento, o que pode induzir o candidato a marcar integração de dados ou mineração de dados. Porém, o núcleo da descrição está nas operações de saneamento da base, que caracterizam limpeza de dados.Dica para questões semelhantesSe o enunciado destacar valores faltantes, duplicidades, erros de digitação, ruídos e inconsistências, o foco é qualidade de dados, portanto limpeza de dados.Diferencie preparação da base de análise da base: limpeza corrige e padroniza dados; mineração busca padrões; EDA explora; integração une fontes; engenharia de atributos cria ou transforma variáveis.Quando aparecer normalização de formatos junto com correção de registros e remoção de redundâncias, a chave é identificar saneamento de dados, não modelagem nem descoberta de conhecimento.

🎯 Saiba o que estudar

🎯 Saiba o que estudar

No processo de descoberta de conhecimento em bases de dados...

Gabarito comentado

Gabarito: A

Clique para visualizar este gabarito

Resumos relacionados

SGBD: Conceitos Fundamentais e Aplicações em Concursos Públicos

Questões de assuntos semelhantes

Provas relacionadas