Foram encontradas 13.726 questões
Resolva questões gratuitamente!
Junte-se a mais de 4 milhões de concurseiros!
Para documentar e formalizar de forma centralizada o significado de termos de negócio e as regras de validação associadas, servindo como a principal fonte de verdade para a qualidade de dados, a boa prática fundamental que deve ser adotada é a
Assinale a opção que apresenta a Dimensão da Qualidade de Dados, na visão do DMBOK, que está sendo violada quando um campo, como o CPF, apresenta valores ausentes (NULL) na base de dados.
Um cientista de dados usou essa técnica para processar milhões de logs de auditoria, em que a fase Map já emitiu pares chavevalor intermediários (ex: (UsuárioID, 1)).
De acordo com modelo MapReduce, assinale a opção que apresenta a função exata e sequencial da fase Shuffle & Sort que é crítica para preparar os dados para a posterior agregação na fase Reduce.
Sobre o tema, avalie as afirmativas a seguir.
I. As Regras de Associação como a Apriori são avaliadas pelo Suporte, Confiança e Lift, sendo o Lift maior que 1 o indicador da força da associação por considerar a frequência esperada das ocorrências.
II. A Filtragem Colaborativa é uma técnica robusta ao problema de Cold Start (novos usuários/itens), uma vez que não depende do histórico de interações.
III. Sistemas de recomendação do tipo Content-Based têm o risco de criar uma câmara de eco porque tendem a recomendar apenas itens com características muito semelhantes às interações passadas do usuário.
Está correto o que se afirma em
Sobre as técnicas de Clustering e Redução de Dimensionalidade, avalie as afirmativas a seguir.
I. O algoritmo DBSCAN é mais adequado que o K-Means para datasets com clusters de formato não convexo e tem a vantagem de ser robusto a ruídos e outliers.
II. O algoritmo K-Means exige que o número de clusters (K) seja definido previamente e é sensível à escala das variáveis de entrada e à presença de outliers.
III. A Análise de Componentes Principais (PCA) é uma técnica não supervisionada que é utilizada para redução de dimensionalidade, e deve ser aplicada antes de qualquer etapa de scaling dos dados para preservar a variância.
Está correto o que se afirma em
Sobre as técnicas de modelagem e avaliação mais adequadas para cada cenário, avalie as afirmativas a seguir.
I. No problema de Classificação Binária com uma base desbalanceada, a métrica do coeficiente de determinação R 2 deve ser priorizada sobre a acurácia.
II. No problema de Regressão, o erro quadrático médio (MSE - Mean Squared Error) é altamente sensível a outliers, e sua raiz quadrada RMSE possui a mesma unidade de medida da variável alvo.
III. O modelo de Regressão Logística é uma técnica de classificação que é adequada para estimar a probabilidade de um evento, mas é incorreto utilizá-lo para prever um valor contínuo como na Regressão.
Está correto o que se afirma em
Assinale a opção que apresenta a principal responsabilidade e o desafio da fase Load no processo ETL, especialmente em relação ao design de índice e particionamento da Tabela de Fato.
Assinale a opção que apresenta a característica mandatória para que um Data Product em um Data Mesh seja considerado autodescritivo e possa ser descoberto e consumido por outros domínios, sem a necessidade de contato direto com o time produtor.
O objetivo é garantir que, em caso de falha completa da Zona de Disponibilidade (AZ) onde a instância primária reside, o serviço possa ser restaurado rapidamente com perda mínima de dados.
Assinale a opção que indica o principal mecanismo arquitetural usado por esses serviços gerenciados para Alta Disponibilidade, que minimiza o RPO (Recovery Point Objective) em um cenário Multi-AZ e garante a rápida transição (failover) sem a necessidade de intervenção manual.
Assinale a opção que indica a cláusula específica da restrição de Chave Estrangeira que deve ser usada para implementar esse comportamento de propagação da exclusão.
Assinale a opção que apresenta a principal implicação técnica de criar um índice clusterizado na coluna DataHora_Acesso de uma tabela tão grande no MS SQL Server, e a consequência direta para a ordenação física dos dados.
Ele executou um UPDATE seguido de um DELETE. Após a execução, ele percebeu que o resultado da alteração estava incorreto e decidiu que as modificações feitas na sessão não deviam ser persistidas no banco de dados.
Assinale a opção que indica o comando SQL Transacional que o desenvolvedor deve executar para desfazer todas as modificações realizadas desde o início da transação na sessão atual, e a principal característica que define uma transação em andamento na regra ACID.
Assinale a opção que indica o tipo de chave que deve ser usada no campo que garante a integridade referencial com a tabela Clientes, e o tipo de chave que a combinação de ID_Venda e Data_Venda representa, garantindo a unicidade mínima e não redundante do registro.
No contexto do DataOps, assinale a opção que apresenta a combinação de práticas e ferramentas que garante a rastreabilidade de
I. código de transformação (SQL/ETL);
II. alterações no schema do DW; e
III. rollback, coordenação automatizada, em caso de falha de deployment.
Assinale a opção que indica o conceito de BI que descreve a prática de fornecer ferramentas intuitivas e acesso direto aos dados para que os usuários de negócio possam criar seus próprios relatórios, dashboards e análises ad hoc, independentemente do time de TI.
Em um SGBD em nuvem configurado para Alta Disponibilidade Multi-AZ/Multi-Region, assinale a opção que indica o mecanismo de replicação e failover que permite a transição rápida para uma réplica em caso de falha da instância primária.
As opções a seguir apresentam estratégias recomendadas para otimização, à exceção de uma. Assinale-a.
Uma tabela de vendas (Vendas) contém as colunas data_venda, id_cliente, valor_total. Deseja-se otimizar a consulta que filtra registros por id_cliente e ordena por data_venda.
Assinale a opção que indica a configuração de índice mais adequada.
No que tange à LGPD e à Qualidade de Dados em um ambiente de Data Governance, assinale a opção que indica a principal responsabilidade do Data Steward.