Questões de Concurso
Para fiocruz
Foram encontradas 4.268 questões
Resolva questões gratuitamente!
Junte-se a mais de 4 milhões de concurseiros!
Das opções abaixo, a que descreve corretamente uma dessas técnicas é:
Sobre avaliação de sumários, a opção que NÃO apresenta um modelo adequado para esta tarefa é:
Sobre essa arquitetura, pode-se afirmar que:
Seja o seguinte código Python, que utiliza a biblioteca gensim e um modelo hipotético de word embeddings denominado modelo_saude.bin especializado em termos médicos em português:
import numpy as np from gensim.models import KeyedVectors
def calcular_similaridade(vetor_a, vetor_b): numerador = np.dot(vetor_a, vetor_b) denominador = np.linalg.norm(vetor_a) *
np.linalg.norm(vetor_b) similaridade = numerador / denominador return similaridade
mo del = Ke yed Vectors. load_ word 2vec _ format(‘modelo_saude.bin’, binary=True) vetor_diabetes = model[‘diabetes’] vetor_hipertensao = model[‘hipertensão’] vetor_insulina = model[‘insulina’]
vetor_diabetes_ajustado = vetor_diabetes + vetor_insulina vetor_hipertensao_ajustado = vetor_hipertensao + vetor_insulina
similaridade = calcular_similaridade(vetor_ diabetes_ajustado, vetor_hipertensao_ajustado) print(f”Similaridade: {similaridade}”)
Utilizando o modelo hipotético model_saude.bin, o resultado mostrado pelo código foi de 0.7036085724830627. Baseado no cenário descrito, no código fornecido e no resultado mostrado, a opção que melhor descreve o que está sendo calculado e o significado do resultado é:
import nltk nltk.download(‘punkt’) from nltk.tokenize import word_tokenize
texto = “Fundação Oswaldo Cruz (Fiocruz): Ciência e tecnologia em saúde para a população brasileira.” tokens = word_tokenize(texto)
contador = 0 resultado = 0 while contador < len(tokens): for letra in tokens[contador]: if letra.upper() in ‘FIOCRUZ’: resultado += 1 contador += 1
O valor da variável resultado, ao final da execução do código, é:
COLUNA 1
(1) Tokenização, (2) POS Tagging, (3) Stemização, (4) Lematização e (5) Chunking.
COLUNA 2
( ) Técnica que transforma uma palavra para sua forma de dicionário, considerando o contexto, a classe gramatical e outras características linguísticas.
( ) Trata de dividir o texto em unidades menores, como palavras ou partes de palavras, transformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN.
( ) Refere-se a reduzir as palavras para suas formas radicais, facilitando a análise de padrões comuns em diferentes variações da mesma palavra.
( ) Técnica de atribuir a cada palavra em um texto a sua classe morfossintática, como substantivos, verbos, adjetivos, etc.
( ) Trata de dividir um texto em segmentos mais curtos, como conjuntos de palavras ou seções de um texto, que serão tratados separadamente em processos posteriores como, por exemplo, vetorização.
A sequência correta, de cima para baixo, é:
import numpy as np from sklearn.model_selection import train_ test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
X = np.array([[1, 50], [2, 60], [3, 70], [4, 80], [5, 90], [1, 55], [2, 65], [3, 75], [4, 85], [5, 95]]) y = np.array([100000, 120000, 150000, 200000, 250000, 110000, 130000, 170000, 230000, 290000]) X_train, X_test, y_train, y_test = train_ test_split(X, y, test_size=0.2, random_ state=0)
model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred) mse = mean_squared_error(y_test, y_pred) rmse = np.sqrt(mse) mae = mean_absolute_error(y_test, y_pred)
print(f”R-Quadrado: {r2}, MSE: {mse}, RMSE: {rmse}, MAE: {mae}”)
Após executar o código, foram obtidas as seguintes métricas de desempenho:
R-Quadrado: 0.9020746527777778 , MSE: 156680555.5555556, R M S E : 1 2 5 1 7 . 2 1 0 3 7 4 3 4 2 8 2 3 , M A E : 10083.333333333343
Com base nessas informações, analise as observações abaixo.
I. O valor de R-Quadrado próximo de 1 indica que o modelo explica uma grande proporção da variância dos dados de financiamento. Isso sugere que o modelo tem um bom ajuste aos dados, sendo capaz de capturar uma grande parte da relação entre as variáveis independentes e a variável dependente.
II. Um valor de MSE de aproximadamente 156 milhões sugere que, em média, o quadrado dos erros das previsões do modelo em relação aos valores reais é significativo. Isso indica que o modelo tem um bom ajuste de acordo e não existem erros consideráveis nas previsões.
III. Um MAE de aproximadamente 10083 sugere que, em média, as previsões do modelo desviam cerca de 10083 unidades dos valores reais. Comparado ao RMSE, o MAE não dá um peso tão grande a erros maiores, o que sugere que o modelo pode ter um número relativamente consistente de pequenos a moderados erros de previsão.
IV.A diferença entre o RMSE e o MAE sugere que o modelo pode estar lidando com alguns outliers ou previsões particularmente imprecisas que afetam mais o RMSE, pois o RMSE penaliza mais erros maiores do que erros menores.
Sobre as afirmativas acima, pode-se dizer que:
Entre as opções abaixo, a que apresenta corretamente a combinação de classes e funções do scikit-learn usadas para implementar regressão do tipo polinomial e classificação com árvores de decisão é:
Considerando a base de dados contendo projetos, pesquisadores, publicações e financiamentos, diversos modelos de aprendizado de máquina podem ser criados. Entre as opções abaixo, a que apresenta uma relação INCORRETA entre objetivo, tipo de aprendizado e tipo de algoritmo de aprendizado de máquina é:
Considere o sumário exibido abaixo, saída do comando summary(df) da linguagem R:
Com base nesta informação, a opção que contém uma observação INCORRETA é:
Seja o dataframe Pandas df carregado da tabela Financiamento e um extrato de seus dados mostrado abaixo.
E seja o seguinte código NumPy, que transforma df em matriz e manipula suas linhas e colunas.
import numpy as np matriz = df.values subconjunto = matriz[matriz[:, 1] == 1, 4:6]
Das opções abaixo, a que apresenta corretamente o array extraído pela operação NumPy é:
I. Empregar categorias para dados textuais repetitivos ao invés de strings.
II. Segmentar os dados em chunks menores durante a leitura de arquivos grandes, utilizando o parâmetro chunksize no read_csv.
III. Fazer uso intensivo de operações inplace.
Sobre as afirmativas acima, pode-se dizer que:
Considere o seguinte código Python que implementa parte de um ETL sobre a tabela Financiamento.
import pandas as pd from sqlalchemy import create_engine from datetime import datetime
engine = create_engine(“postgresql:// postgres:postgres@localhost:5432/bd_pesquisa”) query = “SELECT * FROM Financiamento” df = pd.read_sql_query(con=engine.connect(), sql=sql_text(query)) df[‘data_inicio’] = pd.to_datetime(df[‘data_ inicio’]).dt.strftime(‘%d/%m/%Y’) df[‘data_fim’] = pd.to_datetime(df[‘data_ fim’]).dt.strftime(‘%d/%m/%Y’) df.to_csv(‘financiamentos_transformados.csv’, index=False)
Observe as afirmativas a seguir sobre a execução do código.
I. O código se conecta a um banco de dados PostgreSQL usando a biblioteca SQLAlchemy e extrai todos os dados da tabela Financiamento.
II. As colunas data_inicio e data_fim são transformadas para o formato DD/MM/AAAA, mas esses dados não são atualizados no banco de dados.
III. O dataframe resultante da transformação é salvo em um arquivo CSV chamado financiamentos_transformados.csv na máquina local, incluindo o índice do datadrame como uma coluna adicional.
Sobre as afirmativas acima, pode-se dizer que:
Seja o diagrama ER apresentado abaixo, desenhado na notação crow’s foot, para um sistema de gestão de pesquisa.
Entre as opções abaixo, a que apresenta corretamente uma consulta SQL para retornar o valor total de financiamento de um projeto chamado “Inovação em Saúde” é: