Acerca da modelagem de dados para DataWarehouse e do Data La...

Com base no mesmo assunto

Ano: 2023 Banca: Quadrix Órgão: CREA-GO Prova: Quadrix - 2023 - CREA-GO - Analista de Área - T.I |

Q2348251 Banco de Dados

Acerca da modelagem de dados para DataWarehouse e do Data Lake, julgue o item.

Com a finalidade de manter organizado o repositório, o Data Lake exige que o usuário defina, no mínimo, dois esquemas (schema) para os dados, sendo um para armazenar os metadados e o outro para os dados.

Certo

Errado

Incorreta. Gabarito oficial da banca:

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Parabéns! Você acertou!

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Gabarito: E - Errado

A questão aborda a temática de organização de repositórios de dados em ambientes de Big Data, especificamente comparando o modelo tradicional de Data Warehouse com o conceito mais recente de Data Lake. Para resolver essa questão, é necessário compreender a natureza desses dois ambientes e como eles gerenciam dados e metadados.

No contexto de Data Warehouses, espera-se uma estrutura de dados bem definida, com esquemas pré-definidos (schema-on-write), onde os metadados (informações sobre os dados) e os dados em si são organizados de acordo com o modelo de dados estabelecido previamente. Trata-se de um ambiente altamente estruturado e otimizado para análises e relatórios.

Em contrapartida, um Data Lake é um grande repositório de dados armazenados em seu formato natural (raw), que pode ser estruturado, semi-estruturado ou não estruturado. O conceito chave do Data Lake é a flexibilidade e a capacidade de armazenar grandes volumes de dados sem a necessidade de definir um esquema fixo previamente (schema-on-read). Assim, essa afirmação de que o Data Lake exige a definição de dois esquemas distintos, um para metadados e outro para os dados, é incorreta. No Data Lake, os metadados são frequentemente capturados de maneira dinâmica e podem ser utilizados para organizar, localizar e compreender os dados armazenados, mas não há uma exigência de estruturação rígida como em um Data Warehouse.

A flexibilidade é uma das principais vantagens do Data Lake, permitindo que os usuários definam o esquema dos dados no momento da leitura (schema-on-read) de acordo com os requisitos da análise a ser feita. Isso significa que os dados podem ser armazenados sem um esquema predefinido, e as definições relacionadas à estrutura dos dados são aplicadas posteriormente, conforme necessário para uma tarefa específica de processamento ou análise. Por essa razão, a afirmativa proposta na questão é errada, e o gabarito correto é E - Errado.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

O data lake é um repositório centralizado projetado para armazenar, processar e proteger grandes quantidades de dados estruturados, semiestruturados e não estruturados.

Data Lakes são schemeless

Data Lake é um repositório utilizado para armazenar todos os dados estruturados e não estruturados. Ao armazená-los de forma não estruturada pode-se realizar diferentes tipos de análise, incluindo processamento de big data, análise em tempo real e machine learning, a fim de adquirir melhores decisões.

Fonte: Wikipédia.

Data Lake e esquema organizado na mesma frase, errado.

Um Data Lake não exige a definição prévia de esquemas (schemas) para armazenar dados.

Na verdade, uma das características fundamentais do Data Lake é o modelo schema-on-read, em que:

Os dados são carregados sem estrutura prévia (brutos, raw data).
O esquema só é aplicado no momento da leitura, conforme a necessidade da análise.

Além disso:

O Data Lake não exige exatamente dois esquemas (um para metadados e outro para dados).
Os metadados podem ser mantidos em catálogos (como AWS Glue Catalog, Hive Metastore, Azure Data Catalog), mas isso não é um requisito estrutural do Data Lake, e muito menos um número mínimo obrigatório de schemas.

Essa obrigatoriedade de schemas mínimos não existe nem na literatura clássica de Data Lakes (Inmon, Tom Davenport, Dixon), nem nos padrões de mercado.

Por isso, o item está errado.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo

Resumos relacionados

Resumo

SGBD: Conceitos Fundamentais e Aplicações em Concursos Públicos

O Sistema de Gerenciamento de Banco de Dados (SGBD) é uma peça fundamental na disciplina de Banco de Dados, sendo frequentemente abordado em concursos públicos de níveis médio e superior. Ele consiste em um conjunto de softwares responsáveis por gerenciar, armazenar, recuperar e manipular dados em um banco de dados, garantindo segurança, integridade e eficiência no acesso à informação.

🎯 Saiba o que estudar