O profiling de dados é uma etapa analítica realizada sobre ...

Próximas questões
Com base no mesmo assunto
Q4036241 Banco de Dados
O profiling de dados é uma etapa analítica realizada sobre conjuntos de dados com o objetivo de compreender sua estrutura, qualidade e distribuição antes de iniciar processos de transformação ou carga em camadas analíticas. A realização adequada do profiling permite identificar problemas de qualidade e orientar as regras de tratamento a serem aplicadas no pipeline. Diante disso, analise as afirmativas a seguir sobre profiling básico de dados:
I. A análise de cardinalidade em uma coluna consiste em identificar o número de valores distintos presentes, sendo útil para reconhecer possíveis chaves candidatas e detectar colunas com baixa variabilidade que podem indicar problemas de qualidade.
II. O profiling de nulidade verifica a proporção de valores ausentes em cada coluna, fornecendo informações relevantes para decisões sobre estratégias de tratamento, como imputação, exclusão de registros ou criação de indicadores de ausência.
III. A análise de distribuição de frequência permite identificar quais valores ocorrem com maior regularidade em uma coluna e é aplicável exclusivamente a colunas com tipos de dados numéricos, não sendo útil para colunas do tipo texto ou categórico.
IV. O profiling básico, por ser uma análise estática realizada antes da ingestão, elimina a necessidade de validações de qualidade posteriores durante as fases de transformação e carga, desde que o dataset analisado não sofra alterações estruturais.
Estão CORRETAS: 
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Gabarito: B

Fundamento decisivo: A decisão dependia de comparar as assertivas com operações típicas de profiling básico: cardinalidade e nulidade são verificações usuais, enquanto III erra ao restringir indevidamente a análise de frequência a colunas numéricas e IV extrapola ao afirmar que o profiling inicial dispensa validações posteriores. Por isso, apenas I e II permanecem corretas, o que leva ao gabarito B.

Tema central: profiling básico de dados
Análise das alternativas
A
Errada
Incorreta porque inclui III. O erro específico de III está em afirmar que a análise de distribuição de frequência se aplica exclusivamente a colunas numéricas; isso contraria o critério técnico, pois tabelas de frequência também são úteis para texto e dados categóricos.
B
Certa
A alternativa B está correta porque reúne exatamente as duas assertivas compatíveis com o profiling básico. Em I, cardinalidade é a contagem de valores distintos e serve para avaliar unicidade, baixa variabilidade e possível adequação como chave candidata. Em II, o profiling de nulidade mede a proporção de valores ausentes e subsidia decisões de tratamento, como imputação, descarte ou criação de indicadores de ausência. Esse é o uso normal do profiling como diagnóstico inicial para orientar o pipeline, sem extrapolar seu alcance.
C
Errada
Incorreta porque inclui IV. O erro específico de IV é afirmar que o profiling básico elimina a necessidade de validações posteriores; isso contraria o alcance do profiling, que apoia o tratamento inicial, mas não substitui controles de qualidade durante transformação e carga.
D
Errada
Incorreta porque inclui III junto com I e II. Embora I e II estejam corretas, III continua errada pela restrição indevida de que frequência só seria útil para dados numéricos.
E
Errada
Incorreta porque reúne duas assertivas falsas. III erra ao limitar a análise de frequência exclusivamente a colunas numéricas, e IV erra ao transformar o profiling inicial em substituto de validações posteriores no processo ETL.
Pegadinha da questão
A confusão real está em duas generalizações indevidas: em III, a palavra “exclusivamente” torna falsa uma técnica que também vale para texto/categorias; em IV, o profiling prévio é apresentado como se dispensasse validação contínua, o que não procede.
Dica para questões semelhantes
  • Trate cardinalidade e nulidade como verificações típicas de profiling básico: valores distintos e proporção de ausentes são diagnósticos iniciais clássicos.
  • Desconfie de termos restritivos como “exclusivamente” quando a técnica pode ser aplicada a mais de um tipo de dado.
  • Separe diagnóstico inicial de garantia contínua de qualidade: profiling orienta o tratamento, mas não substitui validações nas etapas seguintes do pipeline.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

A alternativa correta é a B) I e II, apenas.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo