Uma Secretaria da Fazenda está implementando um Data Warehou...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: A
1. Tema central: A questão aborda boas práticas para garantir qualidade e eficiência em um Data Warehouse (DW), especialmente em órgãos públicos. É fundamental conhecer os processos de ETL (Extract, Transform, Load), modelagem de dados e estratégias para manter integridade, consistência e performance.
2. Resumo teórico:
Um Data Warehouse reúne dados integrados de diferentes fontes para análise histórica e apoio à decisão. O processo de ETL é essencial: nele, extrai-se dados das fontes, transforma-se para corrigir, padronizar e consolidar, e por fim carrega-se no DW limpo e organizado. Isso assegura qualidade dos dados e consultas eficientes, conforme defendido por Ralph Kimball (The Data Warehouse Toolkit) e a IN01/2019 do Governo Federal.
3. Justificativa da alternativa A:
A opção A apresenta exatamente essa melhor prática: ter um pipeline ETL estruturado, usando limpeza (remover inconsistências), agregação (resumir dados para análises) e conformidade (padronizar formatos e regras). Isso garante a integridade (ligação correta entre dados), consistência semântica (mesmo significado em diferentes fontes) e performance (consultas rápidas e corretas).
4. Análise das alternativas incorretas:
- B: O ELT até pode ser útil em alguns cenários modernos, mas não é regra geral. Carregar dados brutos antes da limpeza pode levar a informações erradas e baixa performance.
- C: Modelar só com tabelas de fato elimina as dimensões, prejudicando a flexibilidade e tornando análises complexas praticamente impossíveis. A modelagem dimensional (fato + dimensões) é o padrão recomendado.
- D: Há inversão de conceitos: Drill down significa detalhar mais (ir do geral ao específico); drill up é o contrário. O enunciado trocou os sentidos.
- E: ETL em tempo real é útil em alguns casos, mas DW tradicional prioriza cargas periódicas para garantir estabilidade, controle e qualidade histórica dos dados. Usar snapshots sempre pode comprometer a análise.
5. Estratégia para interpretação:
Procure palavras-chave como integridade, consistência, performance. Desconfie de alternativas que oferecem soluções simplistas (como eliminar tabelas dimensionais) ou apresentam conceitos invertidos (drill down/up).
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
A alternativa correta é:
Na construção de um Data Warehouse (DW) — especialmente em ambientes como Secretarias da Fazenda, onde a qualidade dos dados fiscais é crítica —, a melhor prática é:
- Extrair (E) os dados de diversas fontes;
- Transformar (T) os dados aplicando:
- Limpeza (remoção de duplicidades, correção de erros),
- Conformidade (padronização de formatos, tipos e unidades),
- Agregações (resumos, cálculos),
- Regras de negócio (ex: tratamento de valores nulos, arredondamentos fiscais etc);
- Carregar (L) os dados já tratados no Data Warehouse.
Isso garante:
- Integridade referencial entre fatos e dimensões;
- Consistência semântica, essencial em análises fiscais;
- Alta performance nas consultas analíticas.
Letra A, está correta. Um pipeline ETL estruturado que limpa, padroniza, agrega e conforma dimensões e fatos antes do carregamento tende a entregar tabelas confiáveis, com chaves consistentes e métricas derivadas estáveis, favorecendo consultas rápidas e previsíveis. Em ambientes fiscais e regulatórios, o pré-tratamento evita exposição de dados sensíveis e assegura regras de negócio no momento da carga, o que melhora governança e performance.
Letra B, está errada. Embora ELT ofereça flexibilidade para ajustar transformações depois do carregamento, empurrar dados brutos diretamente para o Data Warehouse pode degradar a qualidade e encarecer consultas, além de ampliar riscos de conformidade e inconsistências semânticas se as regras forem aplicadas tardiamente. Em contextos de compliance e modelos relacionais para BI tradicional, priorizar ETL com validação e conformidade antes do load é a melhor prática.
Resposta: A - Perplexity AI
Normalmente para concursos, vemos o ETL ligado ao DW, e o ELT ao Data Lake (não é 100% ou restrito a isso). O DW é ligado ao BI, para fazer análises e tomadas de decisão; então faz sentido pensar que os dados lá dentro já tenham tido algum processamento. Mas eu, particularmente, fiquei na dúvida se "dados fiscais" não seriam primordialmente documentos não estruturados como PDF, o que faria mais sentido (nessa linha de pensamento) o ELT... mas creio que os documentos fiscais sejam normalmente em XML. Bem, quem sabe? Se alguém conseguir contribuir com esse assunto, seria massa.
A melhor prática nesse cenário é:
A) Implementar um processo robusto de ETL (Extração, Transformação e Carga), aliado à modelagem dimensional (esquema estrela ou floco de neve).
Por quê?
- O ETL garante a qualidade dos dados, realizando limpeza, padronização, validação e integração de informações vindas de diferentes sistemas fiscais.
- A modelagem dimensional organiza os dados em fatos e dimensões, o que simplifica consultas, melhora o desempenho e facilita análises históricas e estratégicas.
Resumo para prova:
- A adoção de processos de ETL com validação e limpeza dos dados, combinada com modelagem dimensional, assegura qualidade da informação e eficiência nas consultas do Data Warehouse. (Chatgpt)
Para facilitar leiam sempre as siglas em inglês
ETL - Extract, transform, Load
ELT - Extract, Load, transform
Qualidade e controle prévio → ETL
Velocidade e escalabilidade → ELT
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo