Questões de Concurso
Sobre data mining em banco de dados
Foram encontradas 568 questões
I. É a representação de uma função que mapeia um vetor de valores de atributos para um único valor de saída.
II. Uma árvore de decisão chega à sua decisão realizando uma sequência de testes, começando por uma de suas raízes e seguindo o ramo apropriado até que uma folha seja alcançada.
III. Cada nó interno na árvore corresponde a um teste do valor de um dos atributos de entrada, os ramos a partir do nó são rotulados com os possíveis valores do atributo, e os nós folha especificam qual valor deve ser retornado pela função.
Está correto o que se afirma em
I. É um modelo de regressão linear e dentro do contexto do aprendizado de máquina, a regressão logística pertence à família de modelos de aprendizado de máquina supervisionado.
II. Representa dois grupos de interesse como uma variável binária com valores 0 e 1, não importando qual o grupo é designado com os valores o versus 1, mas a designação de como dever ser observada interpretação dos coeficientes.
III. A função logística é representada pelas seguintes fórmulas:
a) Logit(pi) = 1/(1+ ln(-pi))
b) exp(pi/(1-pi)) = β_0 + β _1*X_1 + … + β _k*K_k.
onde:
logit(pi) é a variável dependente ou de resposta, e x é a variável independente.
Está correto o que se afirma em
A relação correta, na ordem dada, é:
Baseando-se nessas informações, pode-se concluir que a etapa do KDD responsável pela limpeza, seleção e transformação dos dados antes da aplicação dos algoritmos é denominada:
Considerando os facilitadores característicos da análise de negócios preditiva, assinale a opção que apresenta um facilitador típico dessa abordagem.
Esses dois termos são conhecidos, respectivamente, como:
Hábitos vs Aprovação no Concurso X. A primeira coluna significa que o estudo semanal foi maior que 15h um mês antes do concurso. A segunda coluna refere-se à média final no curso superior. A coluna “Aprovado” refere-se a quem foi aprovado na primeira tentativa.
Para esta tabela, considerando a regra gerada pelo algoritmo Apriori, {Estudo>15h}→{Aprovado}, assinale a alternativa com a afirmação correta.
Assinale a alternativa que, respectivamente, corresponde a um algoritmo de associação e a uma métrica usada para validar a regra.
1. Anomalias não intencionais.
2. Anomalias pontuais.
3. Anomalias contextuais.
4. Anomalias coletivas.
( ) Essas anomalias, também conhecidas como valores discrepantes globais, são pontos de dados individuais que estão muito fora do restante do conjunto de dados. Um exemplo desses tipo anomalia é um saque de conta bancária que é significativamente maior do que qualquer um dos saques anteriores do usuário;
( ) Essas anomalias envolvem um conjunto de instâncias de dados que juntas se desviam da norma, mesmo que as instâncias individuais possam parecer normais. Um exemplo desse tipo de anomalia seria um conjunto de dados de tráfego de rede que mostra um aumento repentino no tráfego de vários endereços IP ao mesmo tempo;
( ) Essas anomalias são pontos de dados que se desviam da norma devido a erros ou ruído no processo de coleta de dados. Esses erros podem ser sistemáticos ou aleatórios, originados por problemas como sensores defeituosos ou erro humano durante a entrada de dados. Esse tipo de anomalia pode distorcer o conjunto de dados, dificultando a obtenção de insights precisos;
( ) Essas anomalias são pontos de dados que se desviam da norma dentro de um contexto específico. Essas anomalias não são necessariamente valores discrepantes quando consideradas isoladamente, mas se tornam anômalas quando vistas dentro de seu contexto específico. Por exemplo, considere o uso de energia. Se houver um aumento repentino no consumo de energia ao meio-dia, quando normalmente nenhum membro da família está em casa. Este dado pode não ser um valor discrepante quando comparado ao consumo de energia pela manhã ou à noite (quando as pessoas geralmente estão em casa), mas é anômalo em relação ao horário em que ocorreu.
A relação correta, na ordem dada, é:
• campos numéricos com valores negativos que não fazem sentido (como "idade" ou "renda");
• colunas categóricas com múltiplas grafias para a mesma categoria (ex: "PE", "pe", "Pernambuco");
• presença de valores nulos em campos-chave como “renda” e “número de dependentes”;
• valores repetidos na chave primária “ID cliente”.
Com base nas dimensões de qualidade de dados e nas boas práticas de tratamento com Python - especialmente usando Pandas -, é correto afirmar que a:
Sobre a mineração de dados, assinale a afirmativa correta.
Selecione a opção que identifica o método de particionamento de dados em que o “conjunto de treinamento” é gerado por N sorteios aleatórios com reposição a partir do conjunto de dados original (que contém N registros). Já o “conjunto de testes” é composto pelos registros não selecionados para o “conjunto de treinamento”.
Julgue o item subsequente, relativos à teoria da informação e a banco de dados.
A mineração de dados é uma técnica em que se utilizam exclusivamente algoritmos de aprendizado supervisionado para a identificação de padrões em grandes volumes de dados; no contexto de Big Data, a premissa principal é a utilização de bancos de dados relacionais tradicionais, que são suficientes para o enfrentamento dos desafios de volume, variedade e velocidade característicos desse ambiente.
Acerca de segurança da informação, bancos de dados e aprendizado de máquina, julgue o próximo item.
A técnica de clustering em data mining atribui categorias aos grupos de dados para facilitar a análise e a tomada de decisão.