Julgue o próximo item, relativo à normalização de dados, à ...
A principal característica de um data lake é sua capacidade de armazenar diferentes tipos de dados (estruturados, semiestruturados e não estruturados) sem a necessidade de um esquema antecipadamente definido.
Comentários
Veja os comentários dos nossos alunos
data lake armazena dados brutos, conceito básico
DW armazena só dados estruturados após fazer o ETL ou ELT
data mart tá dentro do DW
resuminho decoreba pra acertar
A principal característica de um Data Lake é sua flexibilidade para armazenar dados em seu formato bruto (estruturados, semiestruturados e não estruturados) sem exigir um esquema rígido pré-definido (abordagem "schema-on-read"). Isso o diferencia de um Data Warehouse, que segue um modelo estruturado e esquematizado ("schema-on-write").
- Armazenamento de Dados Diversificados:
- Estruturados: Tabelas SQL, CSV.
- Semiestruturados: JSON, XML, logs.
- Não estruturados: Imagens, vídeos, PDFs, e-mails.
- Schema-on-Read:
- Os dados são ingeridos em seu formato original, e a estrutura (schema) é aplicada apenas no momento da análise, permitindo maior agilidade na ingestão e adaptabilidade a mudanças.
- Escalabilidade Horizontal:
- Usa armazenamento distribuído (ex.: Hadoop, cloud como AWS S3) para lidar com volumes massivos de dados.
- Custos Reduzidos:
- Armazena dados brutos a baixo custo, sem pré-processamento dispendioso.
- Flexibilidade Analítica:
- Suporta desde análises exploratórias até machine learning e processamento em batch/streaming.
- Pode virar um "Data Swamp": Se não houver governança, metadados ou controle de qualidade, os dados ficam inutilizáveis.
- Complexidade de Gestão: Requer ferramentas (ex.: Apache Spark, Delta Lake) para organizar e garantir confiabilidade.
O Data Lake é ideal para ambientes que demandam agilidade na ingestão e versatilidade analítica, mas exige boas práticas de governança para evitar problemas de qualidade.
Data Lake: É um repositório utilizado para armazenar grandes volumes de dados em formatos variados incluindo dados brutos não processados, bem como dados semiestruturados e estruturados.
Data Warehouse: É um sistema centralizado de armazenamento de dados projetado especificamente para a consulta e análise de grandes volumes de dados históricos.
Características:
- Orientado por assunto;
- Não Volátil;
- Integrado
- Histórico.
Corrijam-me se estiver errado.
Data Lake, por sua vez, armazena qualquer tipo de dado (estruturado, semiestruturado e, por fim, não estruturado). Não oferece uma visão multidimensional dos dados.
Data lake estão em estado BRUTO, ou seja, sem verificações, processamentos ou análises.
Data Lake (lago de dados): dados armazenados de forma bruta; vários tipos de dados; sem refinamento; bruto/variado.
Gabarito: CERTO.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo