Acerca da modelagem de dados para DataWarehouse e do Data La...
Com a finalidade de manter organizado o repositório, o Data Lake exige que o usuário defina, no mínimo, dois esquemas (schema) para os dados, sendo um para armazenar os metadados e o outro para os dados.
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Gabarito: E - Errado
A questão aborda a temática de organização de repositórios de dados em ambientes de Big Data, especificamente comparando o modelo tradicional de Data Warehouse com o conceito mais recente de Data Lake. Para resolver essa questão, é necessário compreender a natureza desses dois ambientes e como eles gerenciam dados e metadados.
No contexto de Data Warehouses, espera-se uma estrutura de dados bem definida, com esquemas pré-definidos (schema-on-write), onde os metadados (informações sobre os dados) e os dados em si são organizados de acordo com o modelo de dados estabelecido previamente. Trata-se de um ambiente altamente estruturado e otimizado para análises e relatórios.
Em contrapartida, um Data Lake é um grande repositório de dados armazenados em seu formato natural (raw), que pode ser estruturado, semi-estruturado ou não estruturado. O conceito chave do Data Lake é a flexibilidade e a capacidade de armazenar grandes volumes de dados sem a necessidade de definir um esquema fixo previamente (schema-on-read). Assim, essa afirmação de que o Data Lake exige a definição de dois esquemas distintos, um para metadados e outro para os dados, é incorreta. No Data Lake, os metadados são frequentemente capturados de maneira dinâmica e podem ser utilizados para organizar, localizar e compreender os dados armazenados, mas não há uma exigência de estruturação rígida como em um Data Warehouse.
A flexibilidade é uma das principais vantagens do Data Lake, permitindo que os usuários definam o esquema dos dados no momento da leitura (schema-on-read) de acordo com os requisitos da análise a ser feita. Isso significa que os dados podem ser armazenados sem um esquema predefinido, e as definições relacionadas à estrutura dos dados são aplicadas posteriormente, conforme necessário para uma tarefa específica de processamento ou análise. Por essa razão, a afirmativa proposta na questão é errada, e o gabarito correto é E - Errado.
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
O data lake é um repositório centralizado projetado para armazenar, processar e proteger grandes quantidades de dados estruturados, semiestruturados e não estruturados.
Data Lakes são schemeless
Data Lake é um repositório utilizado para armazenar todos os dados estruturados e não estruturados. Ao armazená-los de forma não estruturada pode-se realizar diferentes tipos de análise, incluindo processamento de big data, análise em tempo real e machine learning, a fim de adquirir melhores decisões.
Fonte: Wikipédia.
Data Lake e esquema organizado na mesma frase, errado.
Um Data Lake não exige a definição prévia de esquemas (schemas) para armazenar dados.
Na verdade, uma das características fundamentais do Data Lake é o modelo schema-on-read, em que:
- Os dados são carregados sem estrutura prévia (brutos, raw data).
- O esquema só é aplicado no momento da leitura, conforme a necessidade da análise.
Além disso:
- O Data Lake não exige exatamente dois esquemas (um para metadados e outro para dados).
- Os metadados podem ser mantidos em catálogos (como AWS Glue Catalog, Hive Metastore, Azure Data Catalog), mas isso não é um requisito estrutural do Data Lake, e muito menos um número mínimo obrigatório de schemas.
Essa obrigatoriedade de schemas mínimos não existe nem na literatura clássica de Data Lakes (Inmon, Tom Davenport, Dixon), nem nos padrões de mercado.
Por isso, o item está errado.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo