Questões de Concurso
Foram encontradas 188 questões
Resolva questões gratuitamente!
Junte-se a mais de 4 milhões de concurseiros!
Um analista está trabalhando em um projeto que envolve a análise de dados sobre micro e pequenas empresas no Brasil. Seu objetivo é construir um dashboard no Power BI que mostre a evolução dos negócios em diferentes setores, com métricas como faturamento, número de empregados, e taxa de sobrevivência das empresas ao longo dos anos. Os dados estão armazenados em um banco de dados relacional SQL.
Com base nessa situação hipotética, assinale a opção em que é descrita a abordagem mais eficiente para configurar o Power BI, com a utilização de SQL, de forma que o dashboard seja otimizado para desempenho e atualizado regularmente com novos dados.
Assinale a opção que apresenta corretamente a consulta SQL que retornará a média de salários por departamento de uma empresa, considerada uma tabela com colunas
.
Texto 14A3
Em certa base de dados de e-commerce, as tabelas e possuem as seguintes estruturas:
Um cientista de dados precisa analisar o comportamento de compra dos clientes na base de dados descrita no texto 14A3. O objetivo dessa análise é calcular o valor total gasto por cliente em pedidos feitos no mês anterior ao atual.
Com base nessa situação hipotética, assinale a opção em que
consta o comando que executará corretamente o cálculo
requerido.
Em relação aos conceitos do algoritmo k-means, julgue os itens a seguir.
I É importante continuar as iterações do algoritmo k-means até que a mudança na posição dos centroides entre as iterações seja menor que um limite predefinido.
II No coeficiente de silhueta, quanto mais próximo o coeficiente estiver de 1, menor a distância entre os clusters; 0 indica que os dados podem estar no cluster errado; valores negativos sugerem que o ponto está na borda.
III Apesar de um maior número clusters sempre reduzir o SSE (sum of squared errors), isso não significa que mais clusters sempre sejam melhores, pois um número muito grande de clusters pode levar a overfitting do modelo.
Assinale a opção correta.
Em aprendizado de máquina, especialmente em algoritmos de árvores de decisão, é fundamental avaliar como os dados são organizados e classificados em diferentes níveis da árvore. Três conceitos-chave que auxiliam na construção e otimização dessas árvores são o gini impurity, a entropy e o information gain. A respeito desses conceitos, julgue os itens a seguir.
I Gini impurity mede a redução da entropy após a divisão de um conjunto de dados com base em um atributo.
II Entropy mede a quantidade de incerteza ou impureza no conjunto de dados.
III Information gain mede a probabilidade de uma nova instância ser classificada incorretamente, com base na distribuição de classes no conjunto de dados.
Assinale a opção correta.
Se N for uma variável aleatória que siga uma distribuição normal com média igual a 10 e desvio padrão igual a 5 e se Z =, então a probabilidade de ocorrência do evento “Z = 1,96” será igual a
Supondo-se que a variável aleatória X possa assumir valores 0, 1, 2 ou 3 conforme a função de distribuição de probabilidade P(X = h) = na qual h ∈ {0, 1, 2, 3}, é correto afirmar que o valor esperado de X seja igual a
A respeito do modelo de séries temporais St = ɛt + ɛt-12 + ɛt-24 + ɛt-36 + ... = no qual t ∈ ℤ representa um índice temporal e εt denota um erro aleatório no instante t, que segue uma distribuição normal com média zero e desvio padrão 5, assinale a opção correta.