Questões de Concurso
Sobre big data em banco de dados
Foram encontradas 379 questões
Julgue o seguinte item, relativo a segurança da informação e Big Data.
Os Big Data são constituídos unicamente de grandes quantidades de dados estruturados armazenados em banco de dados relacionais e permitem, entre outros fatores, gerir, com velocidade e veracidade, esse volume de dados.
A seguinte técnica avançada de otimização no Spark 3.x permite ao motor de execução identificar esse desequilíbrio em tempo de execução e dividir a partição sobrecarregada em subtarefas menores:
Assinale a opção que indica a classificação desses três tipos de dados, respectivamente.
Data lake permite o armazenamento de dados brutos de diferentes origens para futuras análises, sem a rigidez de um esquema de banco de dados relacional.
O Portal da Transparência do Governo Federal precisa lidar com um volume massivo e crescente de dados heterogêneos, como despesas, receitas, contratos e informações sobre servidores. A arquitetura de dados atual, baseada em um modelo puramente relacional, enfrenta desafios de desempenho e flexibilidade para incorporar novas fontes de dados.
Analise as seguintes proposições sobre a aplicação de bancos de dados NoSQL para solucionar os desafios do Portal da Transparência:
I. Bancos de dados relacionais são inerentemente superiores aos NoSQL para cenários de Big Data e dados heterogêneos, pois a rigidez do esquema e o suporte a transações ACID garantem melhor desempenho em consultas analíticas complexas.
II. A adoção de um banco de dados NoSQL orientado a documentos permitiria armazenar os dados de cada fonte (despesas, contratos, etc.) em seus formatos originais (JSON, por exemplo), facilitando a ingestão e a evolução do modelo de dados sem a necessidade de migrações de esquema complexas.
III. A escalabilidade horizontal, uma característica comum em muitos SGBDs NoSQL, seria um benefício chave, permitindo que a infraestrutura do portal cresça de forma mais elástica e com menor custo para acompanhar o aumento do volume de dados e do número de acessos.
Está correto o que se afirma em:
Para lidar com o grande volume e a complexidade dos dados do Big Data, foram desenvolvidas tecnologias e frameworks específicos, que superam as limitações dos sistemas de bancos de dados tradicionais. Um analista de dados de um órgão de pesquisa precisa processar um grande conjunto de dados não estruturados.
Analise as seguintes proposições sobre as tecnologias de Big Data:
I. O Hadoop é um framework de código aberto que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores. Seus componentes principais são o HDFS (Hadoop Distributed File System), para armazenamento distribuído, e o MapReduce, para o processamento paralelo.
II. O MapReduce é um modelo de programação onde a tarefa é dividida em duas fases: a fase 'Map', que processa e mapeia os dados de entrada em pares de chave-valor, e a fase 'Reduce', que agrega os resultados intermediários da fase 'Map' para produzir o resultado final.
III. O Spark é outro framework de processamento distribuído que, embora compatível com o ecossistema Hadoop, é conhecido por ser significativamente mais rápido, pois realiza o processamento em memória (in-memory), sendo ideal para aplicações de aprendizado de máquina e processamento de dados em tempo real.
Está correto o que se afirma em:
Julgue o item a seguir, relacionados à integração de Big Data e inteligência artificial, bem como a ferramentas de migração.
Sistemas de inteligência artificial executados em infraestrutura de nuvem prescindem da utilização de armazenamento distribuído, pois os modelos de IA processam dados diretamente na memória dos nós de processamento sem necessidade de acesso a dados persistidos.
Julgue o item a seguir, relacionados à integração de Big Data e inteligência artificial, bem como a ferramentas de migração.
Plataformas de processamento distribuído utilizadas em ambientes de Big Data podem ser executadas em infraestrutura de nuvem para realizar processamento paralelo de grandes volumes de dados, os quais podem posteriormente ser utilizados no treinamento de modelos de inteligência artificial.
No que se refere a Big Data, julgue o seguinte item.
Value, pilar fundamental do Big Data, está relacionado à qualidade, à confiabilidade e à precisão dos dados, assim como à garantia de que esses dados não se tornem ruído.
No contexto de arquiteturas de dados modernas para auditoria e inteligência, a implementação de CDC integrada a um modelo ELT permite que os eventos de alteração de dados (DML) sejam ingeridos e persistidos no repositório central em seus formatos semiestruturados originais.
A respeito de dados estruturados e não estruturados, de banco de dados NoSQL, de modelagem e normalização de dados e de Big Data, julgue o item a seguir.
Sabendo-se que, no contexto da implementação de uma arquitetura de Big Data, o uso de um data lake distribuído para o armazenamento de dados brutos favorece a escalabilidade horizontal e a flexibilidade de esquemas, a adoção de formatos de arquivo colunares, como o Apache Parquet, é uma prática recomendada para otimizar a performance de leitura e reduzir o consumo de armazenamento por meio de técnicas de compressão e codificação eficientes.