Questões de Concurso Público Petrobras 2022 para Ciência de Dados
Foram encontradas 11 questões
Em um processo em que se utiliza a ciência de dados, o número de variáveis necessárias para a realização da investigação de um fenômeno é direta e simplesmente igual ao número de variáveis utilizadas para mensurar as respectivas características desejadas; entretanto, é diferente o procedimento para determinar o número de variáveis explicativas, cujos dados estejam em escalas qualitativas.
Considerando esse aspecto dos modelos de regressão, julgue o item a seguir.
Para evitar um erro de ponderação arbitrária, deve-se
recorrer ao artifício de uso de variáveis dummy, o que
permitirá a estratificação da amostra da maneira que for
definido um determinado critério, evento ou atributo, para
então serem inseridas no modelo em análise; isso permitirá o
estudo da relação entre o comportamento de determinada
variável explicativa qualitativa e o fenômeno em questão,
representado pela variável dependente.
O ensemble denominado bagging tem como foco principal a redução do viés e não da variância, treinando-se os modelos em sequência, tal que os erros dos primeiros modelos treinados são utilizados para o ajuste nos pesos matemáticos dos próximos modelos.
Os hiperparâmetros de um modelo são todos os parâmetros que podem ser definidos antes do inicio do treinamento, diferentemente dos parâmetros do modelo, que são aprendidos durante o treino do modelo. A busca por hiperparâmetros de determinado algoritmo de aprendizado de máquina que retorne o melhor desempenho medido em um conjunto de validação deu origem ao conceito de otimização de hiperparâmetros.
Acerca dos conceitos de otimização de hiperparâmetros de
modelos de aprendizado de máquinas, julgue o item que se segue.
A otimização bayesiana se utiliza do conceito de
probabilidade para encontrar o valor de entrada de uma
função que possa retornar o menor valor de saída possível.
Nesse método, o número de iterações de pesquisa pode ser
reduzido a partir da escolha dos valores de entrada, levando
em consideração os resultados anteriores, o que caracteriza
um processo iterativo.
Com respeito a métodos para imputação de dados, julgue o seguinte item.
O método de imputação K-NN (k-nearest neighbours) leva
em consideração os padrões de similaridade presentes no
conjunto de dados para predizer os valores faltantes. No
entanto, a escolha da função de distância para a aplicação
desse método, como, por exemplo, HEOM (heterogeneous
euclidean-overlap metric) ou HVDM (heterogeneous value
difference metric), pode influenciar significativamente nos
resultados da imputação.
Com respeito a métodos para imputação de dados, julgue o seguinte item.
Um dos passos para tratar com dados faltantes é avaliar o
tipo de dado perdido; assim, por exemplo, o método MICE
(multivariate imputation by chained equations) não seria
aplicável para dados perdidos do tipo MAR (missing at
random).