Questões de Concurso Para fiocruz

Foram encontradas 4.268 questões

Resolva questões gratuitamente!

Junte-se a mais de 4 milhões de concurseiros!

Q3331518 Sistemas de Informação
Ao integrar informações provenientes de fontes de dados externas, como documentos ou bancos de dados, com Large Language Models (LLMs), é possível empregar uma variedade de técnicas e estratégias para construir aplicações adaptadas às demandas específicas de cada projeto e aos recursos disponíveis.
Das opções abaixo, a que descreve corretamente uma dessas técnicas é:
Alternativas
Q3331517 Sistemas de Informação
Considerando o avanço recente dos modelos de Processamento de Linguagem Natural (PLN) e a necessidade crescente de processar e sumarizar grandes volumes de documentos de forma eficiente, você foi encarregado de desenvolver uma aplicação capaz de sumarizar automaticamente documentos clínicos, proporcionando aos profissionais de saúde acessos mais rápidos e precisos às informações relevantes dos pacientes. Um aspecto primordial no desenvolvimento de aplicações de sumarização é a avaliação dos sumários gerados, na medida em que os usuários passam a confiar nesses sumários para tomada de decisão.
Sobre avaliação de sumários, a opção que NÃO apresenta um modelo adequado para esta tarefa é:
Alternativas
Q3331516 Saúde Pública
O uso de Large Language Models (LLMs) na área da saúde, como GPT e BERT, oferece um vasto campo de possibilidades para inovação. Atualmente, é possível criar uma série de aplicações que fazem uso dessas LLMs, variando desde melhorias da qualidade e acessibilidade a conhecimentos até o apoio a novas pesquisas na área. Entre as opções abaixo, aquela que apresenta uma iniciativa que NÃO pode ser baseada no uso de LLMs é:
Alternativas
Q3331515 Ciência e Tecnologia
A evolução das tecnologias de Inteligência Artificial, especialmente no campo do Processamento de Linguagem Natural (PLN), tem sido marcada por inovações significativas que transformaram a maneira como as máquinas entendem e geram linguagem humana. Uma dessas inovações é a arquitetura de Transformers, introduzida pelo artigo Attention is All You Need em 2017, superando as limitações das abordagens anteriores baseadas em Redes Neurais Recorrentes (RNNs) e tornando-se a base fundamental para o surgimento dos Large Language Models (LLMs).
Sobre essa arquitetura, pode-se afirmar que:
Alternativas
Q3331514 Programação
Você é um cientista de dados trabalhando em um projeto de pesquisa em saúde que envolve a análise de relatórios médicos utilizando técnicas de Processamento de Linguagem Natural (PLN). Parte do seu trabalho é explorar as relações semânticas entre diferentes condições de saúde utilizando um modelo pré-treinado de word embeddings em português, focado na área da saúde. Você decide investigar a relação entre diferentes doenças e tratamentos.

Seja o seguinte código Python, que utiliza a biblioteca gensim e um modelo hipotético de word embeddings denominado modelo_saude.bin especializado em termos médicos em português:

import numpy as np from gensim.models import KeyedVectors
def calcular_similaridade(vetor_a, vetor_b):    numerador = np.dot(vetor_a, vetor_b)    denominador = np.linalg.norm(vetor_a) *
np.linalg.norm(vetor_b)    similaridade = numerador / denominador    return similaridade
mo del = Ke yed Vectors. load_ word 2vec _ format(‘modelo_saude.bin’, binary=True) vetor_diabetes = model[‘diabetes’] vetor_hipertensao = model[‘hipertensão’] vetor_insulina = model[‘insulina’]
vetor_diabetes_ajustado = vetor_diabetes + vetor_insulina vetor_hipertensao_ajustado = vetor_hipertensao + vetor_insulina
similaridade = calcular_similaridade(vetor_ diabetes_ajustado, vetor_hipertensao_ajustado) print(f”Similaridade: {similaridade}”)

Utilizando o modelo hipotético model_saude.bin, o resultado mostrado pelo código foi de 0.7036085724830627. Baseado no cenário descrito, no código fornecido e no resultado mostrado, a opção que melhor descreve o que está sendo calculado e o significado do resultado é:
Alternativas
Q3331513 Noções de Informática
Entre as observações abaixo sobre a técnica de Word Embeddings e sua importância em modelos de Processamento de Linguagem Natural (PLN), a que está correta é:
Alternativas
Q3331512 Programação
Observe o código Python abaixo, que utiliza a biblioteca NLTK para tarefas de Processamento de Linguagem Natural.

import nltk nltk.download(‘punkt’) from nltk.tokenize import word_tokenize
texto = “Fundação Oswaldo Cruz (Fiocruz): Ciência e tecnologia em saúde para a população brasileira.” tokens = word_tokenize(texto)
contador = 0 resultado = 0 while contador < len(tokens):    for letra in tokens[contador]:    if letra.upper() in ‘FIOCRUZ’:       resultado += 1 contador += 1


O valor da variável resultado, ao final da execução do código, é:
Alternativas
Q3331511 Noções de Informática
O Processamento de Linguagem Natural (PLN) busca melhorar a capacidade das máquinas de entender e interagir com a linguagem humana de forma natural e semanticamente adequada. Ao longo dos anos, a evolução dos modelos de Machine Learning tem desempenhado um papel fundamental nesse processo, permitindo avanços significativos em tarefas como tradução automática, análise de sentimentos e assistentes virtuais. Esses modelos dependem de uma série de técnicas de pré-processamento para transformar texto bruto em formas que possam ser eficientemente analisadas e compreendidas. Numere a 2ª coluna pela primeira, considerando as técnicas e as respectivas definições.

COLUNA 1
(1) Tokenização, (2) POS Tagging, (3) Stemização, (4) Lematização e (5) Chunking.
COLUNA 2
( ) Técnica que transforma uma palavra para sua forma de dicionário, considerando o contexto, a classe gramatical e outras características linguísticas.

( ) Trata de dividir o texto em unidades menores, como palavras ou partes de palavras, transformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN.

( ) Refere-se a reduzir as palavras para suas formas radicais, facilitando a análise de padrões comuns em diferentes variações da mesma palavra.

( ) Técnica de atribuir a cada palavra em um texto a sua classe morfossintática, como substantivos, verbos, adjetivos, etc.

( ) Trata de dividir um texto em segmentos mais curtos, como conjuntos de palavras ou seções de um texto, que serão tratados separadamente em processos posteriores como, por exemplo, vetorização.


A sequência correta, de cima para baixo, é:
Alternativas
Q3331510 Noções de Informática
As Redes Neurais Recorrentes (RNNs) são projetadas para processar dados sequenciais ou temporais, destacando-se pela sua capacidade de reter memória de entradas anteriores através de loops internos na sua arquitetura. Entre os algoritmos mais utilizados, destacam-se o Long Short-Term Memory (LSTM) e o Gated Recurrent Unit (GRU), ambos projetados para preservar informações ao longo do tempo e superar o desafio do desaparecimento do gradiente. Além disso, técnicas fundamentais como softmax, backpropagation e o processo feedforward são fundamentais para o treinamento e a eficácia das RNNs. Acerca dessas técnicas, a opção que apresenta uma observação INCORRETA é: 
Alternativas
Q3331509 Estatística
Considere a seguinte implementação de um modelo de regressão linear múltipla utilizando NumPy e scikit-learn, usado para prever o financiamento de projetos com base em características de projetos e pesquisadores. O código abaixo foi executado e algumas métricas de desempenho foram obtidas.

import numpy as np from sklearn.model_selection import train_ test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

X = np.array([[1, 50], [2, 60], [3, 70], [4, 80], [5, 90], [1, 55], [2, 65], [3, 75], [4, 85], [5, 95]]) y = np.array([100000, 120000, 150000, 200000, 250000, 110000, 130000, 170000, 230000, 290000]) X_train, X_test, y_train, y_test = train_ test_split(X, y, test_size=0.2, random_ state=0)

model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)

r2 = r2_score(y_test, y_pred) mse = mean_squared_error(y_test, y_pred) rmse = np.sqrt(mse) mae = mean_absolute_error(y_test, y_pred)

print(f”R-Quadrado: {r2}, MSE: {mse}, RMSE: {rmse}, MAE: {mae}”)

Após executar o código, foram obtidas as seguintes métricas de desempenho:

R-Quadrado: 0.9020746527777778 , MSE: 156680555.5555556, R M S E : 1 2 5 1 7 . 2 1 0 3 7 4 3 4 2 8 2 3 , M A E : 10083.333333333343

Com base nessas informações, analise as observações abaixo.

I. O valor de R-Quadrado próximo de 1 indica que o modelo explica uma grande proporção da variância dos dados de financiamento. Isso sugere que o modelo tem um bom ajuste aos dados, sendo capaz de capturar uma grande parte da relação entre as variáveis independentes e a variável dependente.

II. Um valor de MSE de aproximadamente 156 milhões sugere que, em média, o quadrado dos erros das previsões do modelo em relação aos valores reais é significativo. Isso indica que o modelo tem um bom ajuste de acordo e não existem erros consideráveis nas previsões.

III. Um MAE de aproximadamente 10083 sugere que, em média, as previsões do modelo desviam cerca de 10083 unidades dos valores reais. Comparado ao RMSE, o MAE não dá um peso tão grande a erros maiores, o que sugere que o modelo pode ter um número relativamente consistente de pequenos a moderados erros de previsão.

IV.A diferença entre o RMSE e o MAE sugere que o modelo pode estar lidando com alguns outliers ou previsões particularmente imprecisas que afetam mais o RMSE, pois o RMSE penaliza mais erros maiores do que erros menores.


Sobre as afirmativas acima, pode-se dizer que:
Alternativas
Q3331508 Programação
O scikit-learn é uma biblioteca de aprendizado de máquina para Python que fornece uma ampla variedade de classes e funções para análise de dados e modelagem de Machine Learning. Ele inclui algoritmos para classificação, regressão, clusterização, redução de dimensionalidade, seleção de modelos, pré-processamento de dados, entre outros.
Entre as opções abaixo, a que apresenta corretamente a combinação de classes e funções do scikit-learn usadas para implementar regressão do tipo polinomial e classificação com árvores de decisão é: 
Alternativas
Q3331507 Noções de Informática
Modelos de Machine Learning (ML) são parte fundamental do conhecimento no campo de um cientista de dados, objetivando a compreensão de padrões complexos e a tomada de decisão baseada em dados. Esses modelos permitem que cientistas de dados transformem grandes volumes de dados brutos em insights acionáveis, previsões e recomendações com precisão que frequentemente supera análises tradicionais.
Considerando a base de dados contendo projetos, pesquisadores, publicações e financiamentos, diversos modelos de aprendizado de máquina podem ser criados. Entre as opções abaixo, a que apresenta uma relação INCORRETA entre objetivo, tipo de aprendizado e tipo de algoritmo de aprendizado de máquina é:
Alternativas
Q3331506 Programação
Além da linguagem Python, a linguagem R é uma poderosa ferramenta estatística e gráfica utilizada por cientistas de dados em todo o mundo. Originária do ambiente acadêmico e com forte apoio da comunidade de estatística, R rapidamente se consolidou como uma das linguagens de programação de escolha para análise de dados, pesquisa científica, e qualquer aplicação que exija manipulação intensiva de dados, análise estatística ou visualização gráfica.
Considere o sumário exibido abaixo, saída do comando summary(df) da linguagem R:

Imagem associada para resolução da questão

Com base nesta informação, a opção que contém uma observação INCORRETA é:
Alternativas
Q3331505 Programação
Além do Pandas, NumPy, que é um acrônimo para Numerical Python, é outra biblioteca fundamental para a computação em Python. Ela serve como um dos pilares do ecossistema de ciência de dados e análise numérica, oferecendo suporte para poderosas estruturas de dados de arrays e matrizes multidimensionais.
Seja o dataframe Pandas df carregado da tabela Financiamento e um extrato de seus dados mostrado abaixo.

Imagem associada para resolução da questão

E seja o seguinte código NumPy, que transforma df em matriz e manipula suas linhas e colunas. 
import numpy as np matriz = df.values subconjunto = matriz[matriz[:, 1] == 1, 4:6]

Das opções abaixo, a que apresenta corretamente o array extraído pela operação NumPy é: 
Alternativas
Q3331504 Programação
Quando se trabalha com grandes conjuntos de dados no Pandas, a eficiente alocação de memória torna-se crucial para manter um bom desempenho e evitar o esgotamento dos recursos do sistema. Dado este desafio, analise as opções abaixo para otimizar o uso da memória ao manipular grandes volumes de dados com Pandas.

I. Empregar categorias para dados textuais repetitivos ao invés de strings.
II. Segmentar os dados em chunks menores durante a leitura de arquivos grandes, utilizando o parâmetro chunksize no read_csv.
III. Fazer uso intensivo de operações inplace.

Sobre as afirmativas acima, pode-se dizer que:
Alternativas
Q3331503 Banco de Dados
O campo da Ciência de Dados é dinâmico e está em constante evolução, com o desenvolvimento de tecnologias e ferramentas que tornam a análise de dados mais eficiente e acessível. Uma dessas ferramentas é a biblioteca Pandas para a linguagem de programação Python. Por ser uma biblioteca de análise de dados conhecida principalmente por suas estruturas de dados poderosas que facilitam a manipulação de dados, como dataframes, é amplamente utilizada em processos de ETL (Extract, Transform and Load) por engenheiros e cientistas de dados que necessitam pré-processar e transferir dados entre plataformas de dados, como, por exemplo, bancos de dados relacionais e Data Lakes.

Considere o seguinte código Python que implementa parte de um ETL sobre a tabela Financiamento.

import pandas as pd from sqlalchemy import create_engine from datetime import datetime
engine = create_engine(“postgresql:// postgres:postgres@localhost:5432/bd_pesquisa”) query = “SELECT * FROM Financiamento” df = pd.read_sql_query(con=engine.connect(), sql=sql_text(query)) df[‘data_inicio’] = pd.to_datetime(df[‘data_ inicio’]).dt.strftime(‘%d/%m/%Y’) df[‘data_fim’] = pd.to_datetime(df[‘data_ fim’]).dt.strftime(‘%d/%m/%Y’) df.to_csv(‘financiamentos_transformados.csv’, index=False)

Observe as afirmativas a seguir sobre a execução do código.
I. O código se conecta a um banco de dados PostgreSQL usando a biblioteca SQLAlchemy e extrai todos os dados da tabela Financiamento.
II. As colunas data_inicio e data_fim são transformadas para o formato DD/MM/AAAA, mas esses dados não são atualizados no banco de dados.
III. O dataframe resultante da transformação é salvo em um arquivo CSV chamado financiamentos_transformados.csv na máquina local, incluindo o índice do datadrame como uma coluna adicional.

Sobre as afirmativas acima, pode-se dizer que:
Alternativas
Q3331502 Banco de Dados
Com base no diagrama ER apresentado na questão anterior, a consulta SQL que lista os nomes de todos os projetos que estão associados a menos de 4 pesquisadores e que têm um financiamento total maior que 20.000,00 é:
Alternativas
Q3331501 Banco de Dados
Para a construção de um sistema de apoio à pesquisa e desenvolvimento na área de saúde, um modelo ER associado deve abranger entidades essenciais que facilitam a gestão de dados de pesquisa, desenvolvimento de estudos epidemiológicos e monitoramento de saúde pública. Este sistema poderia auxiliar na análise de tendências, na resposta a emergências de saúde pública e no desenvolvimento de políticas de saúde baseadas em evidências.
Seja o diagrama ER apresentado abaixo, desenhado na notação crow’s foot, para um sistema de gestão de pesquisa.

Imagem associada para resolução da questão


Entre as opções abaixo, a que apresenta corretamente uma consulta SQL para retornar o valor total de financiamento de um projeto chamado “Inovação em Saúde” é:
Alternativas
Q3331500 Legislação Federal
Segundo o Art. 12 da Lei nº 11.540, de 12 de novembro de 2027, os recursos do FNDCT referentes às receitas previstas no Art. 10 desta Lei poderão ser aplicados nas seguintes modalidades, EXCETO:
Alternativas
Q3331499 Administração Pública
O Fundo Nacional de Desenvolvimento Científico e Tecnológico (FNDCT), instituído pelo Decreto-Lei nº 719, de 31 de julho de 1969, e restabelecido pela Lei nº 8.172, de 18 de janeiro de 1991, é um fundo especial de natureza contábil e financeira e tem o objetivo de financiar a inovação e o desenvolvimento científico e tecnológico com vistas a promover o desenvolvimento econômico e social do País. O órgão público que gerencia o FNDCT é:
Alternativas
Respostas
1861: D
1862: E
1863: B
1864: C
1865: D
1866: C
1867: A
1868: E
1869: A
1870: D
1871: B
1872: B
1873: E
1874: A
1875: E
1876: C
1877: A
1878: E
1879: B
1880: B