Questões de Concurso Sobre big data em banco de dados

Foram encontradas 379 questões

Q4120709 Banco de Dados

Julgue o seguinte item, relativo a segurança da informação e Big Data


Os Big Data são constituídos unicamente de grandes quantidades de dados estruturados armazenados em banco de dados relacionais e permitem, entre outros fatores, gerir, com velocidade e veracidade, esse volume de dados.

Alternativas
Q4088614 Banco de Dados
Um pipeline de dados do TCE-SC processa bilhões de registros de notas fiscais usando Spark SQL. O Auditor nota um problema de desbalanceamento de dados no qual um único executor demora muito mais que os outros para completar uma operação de Join, pois uma chave específica possui muito mais registros que as demais.
A seguinte técnica avançada de otimização no Spark 3.x permite ao motor de execução identificar esse desequilíbrio em tempo de execução e dividir a partição sobrecarregada em subtarefas menores: 
Alternativas
Q4086772 Banco de Dados
Um Auditor está montando um fluxo de dados que extrai informações de um banco de dados SQL, de notas fiscais eletrônicas em formato JSON e de relatórios em PDF com texto livre.

Assinale a opção que indica a classificação desses três tipos de dados, respectivamente.
Alternativas
Q4067460 Banco de Dados
Observando um órgão estadual que integra NF-e, EFD/SPED, logs de sistemas, dados semiestruturados de convênios e arquivos em múltiplos formatos, preservando os dados no formato original para usos analíticos futuros, a característica arquitetural que define um data lake no cenário descrito é
Alternativas
Q4054545 Banco de Dados
No que se refere à ciência de dados aplicada à gestão pública e à saúde. 

Data lake permite o armazenamento de dados brutos de diferentes origens para futuras análises, sem a rigidez de um esquema de banco de dados relacional.
Alternativas
Q4048568 Banco de Dados

O Portal da Transparência do Governo Federal precisa lidar com um volume massivo e crescente de dados heterogêneos, como despesas, receitas, contratos e informações sobre servidores. A arquitetura de dados atual, baseada em um modelo puramente relacional, enfrenta desafios de desempenho e flexibilidade para incorporar novas fontes de dados.


Analise as seguintes proposições sobre a aplicação de bancos de dados NoSQL para solucionar os desafios do Portal da Transparência: 


I. Bancos de dados relacionais são inerentemente superiores aos NoSQL para cenários de Big Data e dados heterogêneos, pois a rigidez do esquema e o suporte a transações ACID garantem melhor desempenho em consultas analíticas complexas.


 II. A adoção de um banco de dados NoSQL orientado a documentos permitiria armazenar os dados de cada fonte (despesas, contratos, etc.) em seus formatos originais (JSON, por exemplo), facilitando a ingestão e a evolução do modelo de dados sem a necessidade de migrações de esquema complexas.


III. A escalabilidade horizontal, uma característica comum em muitos SGBDs NoSQL, seria um benefício chave, permitindo que a infraestrutura do portal cresça de forma mais elástica e com menor custo para acompanhar o aumento do volume de dados e do número de acessos.


Está correto o que se afirma em:

Alternativas
Q4048561 Banco de Dados

Para lidar com o grande volume e a complexidade dos dados do Big Data, foram desenvolvidas tecnologias e frameworks específicos, que superam as limitações dos sistemas de bancos de dados tradicionais. Um analista de dados de um órgão de pesquisa precisa processar um grande conjunto de dados não estruturados.


Analise as seguintes proposições sobre as tecnologias de Big Data:


I. O Hadoop é um framework de código aberto que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores. Seus componentes principais são o HDFS (Hadoop Distributed File System), para armazenamento distribuído, e o MapReduce, para o processamento paralelo.

II. O MapReduce é um modelo de programação onde a tarefa é dividida em duas fases: a fase 'Map', que processa e mapeia os dados de entrada em pares de chave-valor, e a fase 'Reduce', que agrega os resultados intermediários da fase 'Map' para produzir o resultado final.

III. O Spark é outro framework de processamento distribuído que, embora compatível com o ecossistema Hadoop, é conhecido por ser significativamente mais rápido, pois realiza o processamento em memória (in-memory), sendo ideal para aplicações de aprendizado de máquina e processamento de dados em tempo real.


Está correto o que se afirma em: 

Alternativas
Q4036220 Banco de Dados
Um Analista de Sistemas, que atua em uma agência de fomento vinculada ao setor governamental, está trabalhando com o Hadoop para processar e analisar grandes volumes de dados armazenados no HDFS (Hadoop Distributed File System). Ele precisa consultar esses dados de forma rápida e eficiente, utilizando uma linguagem semelhante ao SQL (Structured Query Language) para extrair informações agregadas e gerar relatórios. Considerando esse contexto, assinale a alternativa que apresenta duas ferramentas do Hadoop capazes de consultar grandes volumes de dados no HDFS, usando uma linguagem semelhante ao SQL (HiveQL/SQL):
Alternativas
Q4027777 Banco de Dados

Julgue o item a seguir, relacionados à integração de Big Data e inteligência artificial, bem como a ferramentas de migração. 


Sistemas de inteligência artificial executados em infraestrutura de nuvem prescindem da utilização de armazenamento distribuído, pois os modelos de IA processam dados diretamente na memória dos nós de processamento sem necessidade de acesso a dados persistidos.

Alternativas
Q4027776 Banco de Dados

Julgue o item a seguir, relacionados à integração de Big Data e inteligência artificial, bem como a ferramentas de migração. 


Plataformas de processamento distribuído utilizadas em ambientes de Big Data podem ser executadas em infraestrutura de nuvem para realizar processamento paralelo de grandes volumes de dados, os quais podem posteriormente ser utilizados no treinamento de modelos de inteligência artificial. 

Alternativas
Q4023209 Banco de Dados

No que se refere a Big Data, julgue o seguinte item. 


Value, pilar fundamental do Big Data, está relacionado à qualidade, à confiabilidade e à precisão dos dados, assim como à garantia de que esses dados não se tornem ruído. 

Alternativas
Q4019722 Banco de Dados
Em arquiteturas de dados que seguem o padrão de medallion architecture, a ingestão de dados provenientes de sistemas transacionais é frequentemente realizada de forma incremental para minimizar o impacto nos bancos de produção. Uma das abordagens comuns utiliza ferramentas de CDC (change data capture) acopladas a sistemas de mensageria para alimentar um data lake ou cloud data warehouse. A esse respeito, julgue o item a seguir.

No contexto de arquiteturas de dados modernas para auditoria e inteligência, a implementação de CDC integrada a um modelo ELT permite que os eventos de alteração de dados (DML) sejam ingeridos e persistidos no repositório central em seus formatos semiestruturados originais.
Alternativas
Q4019719 Banco de Dados

A respeito de dados estruturados e não estruturados, de banco de dados NoSQL, de modelagem e normalização de dados e de Big Data, julgue o item a seguir.


Sabendo-se que, no contexto da implementação de uma arquitetura de Big Data, o uso de um data lake distribuído para o armazenamento de dados brutos favorece a escalabilidade horizontal e a flexibilidade de esquemas, a adoção de formatos de arquivo colunares, como o Apache Parquet, é uma prática recomendada para otimizar a performance de leitura e reduzir o consumo de armazenamento por meio de técnicas de compressão e codificação eficientes.

Alternativas
Q4014183 Banco de Dados
Julgue o próximo item, relativo aos dados estruturados e não estruturados, à ingestão e armazenamento de grande quantidade de dados e aos bancos de dados NoSQL.
Sistemas de armazenamento distribuído, como data lakes, permitem o armazenamento de dados em seu formato bruto, favorecendo abordagens ELT em detrimento de ETL. 
Alternativas
Q4014182 Banco de Dados
Julgue o próximo item, relativo aos dados estruturados e não estruturados, à ingestão e armazenamento de grande quantidade de dados e aos bancos de dados NoSQL.
A ingestão de dados em streaming não é adequada para cenários que exigem alta confiabilidade, pois não permite mecanismos de tolerância a falhas ou reprocessamento de eventos. 
Alternativas
Q4014180 Banco de Dados
Julgue o próximo item, relativo aos dados estruturados e não estruturados, à ingestão e armazenamento de grande quantidade de dados e aos bancos de dados NoSQL.
Em arquiteturas de Big Data, dados não estruturados não podem ser indexados ou consultados diretamente, sendo obrigatória sua transformação em dados estruturados antes de qualquer análise.
Alternativas
Q3973797 Banco de Dados
No contexto de arquiteturas modernas de dados, data lakes são adotados para lidar com grande volume, variedade e velocidade de dados, mantendo flexibilidade para múltiplos usos analíticos, tendo como princípio a estratégia
Alternativas
Q3968385 Banco de Dados
Em um pipeline de dados, o modelo ETL (Extract, Transform, Load) caracteriza-se pela realização das transformações antes da carga dos dados no sistema de destino, enquanto o modelo ELT (Extract, Load, Transform) adia as transformações para depois da ingestão dos dados em um ambiente analítico. Nesse contexto, a alternativa mais coerente com os impactos em escalabilidade, custo computacional e planejamento em cenários de big data é: 
Alternativas
Q3961432 Banco de Dados
Em bancos de dados NoSQL, o modelo que atende conjuntos altamente conectados é chamado de 
Alternativas
Q3961429 Banco de Dados
Assinale a opção que corresponde ao modelo, em Big Data, utilizado para processar paralelamente grandes volumes de dados.
Alternativas
Respostas
1: E
2: B
3: A
4: C
5: C
6: D
7: C
8: A
9: E
10: C
11: E
12: C
13: C
14: C
15: E
16: E
17: D
18: A
19: E
20: C