Questões de Concurso para Tecnologista

Q3331525

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331525 Direito Sanitário

Sobre o direito à saúde previsto na Lei Orgânica da Saúde (Lei nº 8080/1990) e na Constituição Federal (1988), avalie se são verdadeiras (V) ou falsas (F) as afirmativas a seguir:

I. A saúde é um direito fundamental do ser humano, devendo o Estado, sempre que possível, prover as condições indispensáveis ao seu pleno exercício.

II. O dever do Estado não exclui o das pessoas, da família, das empresas e da sociedade.

III. A saúde é direito de todos e dever do Estado, garantido mediante políticas sociais e econômicas que visem à redução do risco de doença.

As afirmativas I, II e III são, respectivamente:

A

F, V e V.

B

V, V e F.

C

V, F e V.

D

F, F e V.

E

V, V e V.

Incorreta. Gabarito oficial da banca:

Veja como esse erro impacta seu desempenho geral. Ver estatísticas

teste

Parabéns! Você acertou!

Esse acerto melhora seu desempenho! Veja suas estatísticas

teste

Q3331524

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331524 Direito Sanitário

Segundo a Lei Orgânica da Saúde (Lei nº 8080/1990), os serviços públicos de saúde e os serviços privados contratados ou conveniados que integram o Sistema Único de Saúde (SUS) devem obedecer aos princípios abaixo, EXCETO:

A

direito à informação, às pessoas assistidas, sobre sua saúde.

B

universalidade de acesso aos serviços de saúde em todos os níveis de assistência.

C

igualdade da assistência à saúde, sem preconceitos ou privilégios de qualquer espécie.

D

encaminhamento do paciente para inscrição em programas de complementação de renda, caso necessário.

E

descentralização político-administrativa, com direção única em cada esfera de governo.

Incorreta. Gabarito oficial da banca:

Salve essa questão em um caderno para revisar depois. Adicionar a um caderno

teste

Parabéns! Você acertou!

Mantenha o ritmo! Salve no caderno para revisar depois. Adicionar a um caderno

teste

Q3331523

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331523 Saúde Pública

Considerando a definição, pilares e objetivos da Saúde Coletiva, avalie se são verdadeiras (V) ou falsas (F) as afirmativas a seguir:

I. A saúde é definida como ausência de doenças.
II. Tem como característica ações isoladas da Vigilância Epidemiológica e Sanitária.
II. É considerada a influência de fatores sociais, econômicos e culturais na saúde das comunidades.

As afirmativas I, II e III são, respectivamente:

A

V, F e V.

B

F, V e F.

C

F, F e V.

D

V, V e V.

E

F, V e V.

Incorreta. Gabarito oficial da banca:

Veja esse conteúdo explicado passo a passo em nossos cursos. Buscar curso

teste

Parabéns! Você acertou!

Mandou bem! Revise esse tema nos nossos cursos. Buscar curso

teste

Q3331522

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331522 Noções de Informática

Disseminados pelo DATASUS para download (ftp.datasus.gov.br), os dados desagregados sobre a declaração de óbito do Sistema de Informação sobre Mortalidade (SIM) estão disponíveis com a extensão:

A

parquet.

B

tsv.

C

pdf.

D

dbc.

E

xslx.

Incorreta. Gabarito oficial da banca:

Treine mais com um simulado focado no seu concurso. Criar simulado

teste

Parabéns! Você acertou!

Está mandando bem! Treine mais em um simulado completo. Criar simulado

teste

Q3331521

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331521 Saúde Pública

O Departamento de Informática do Sistema Único de Saúde (DATASUS) disponibiliza inúmeros arquivos para o enriquecimento das bases de dados disponíveis para download. Alguns atributos são preenchidos com informações da classificação estatística internacional de doenças e problemas relacionados com a Saúde (CID-10). São disponibilizados pelo DATASUS arquivos que permitem a agregação das doenças em:

A

módulo, capítulo e grupo.

B

capítulo, grupo e categoria.

C

artigo, grupo e categoria.

D

capítulo, artigo e inciso.

E

artigo, inciso e módulo.

Incorreta. Gabarito oficial da banca:

Errou um tema comum da banca? Veja o que mais costuma cair no Raio-X. Ver raio-X

teste

Parabéns! Você acertou!

Essa questão segue o padrão da banca! Veja o que mais costuma cair. Ver raio-X

teste

Q3331520

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331520 Sistemas de Informação

Você é um cientista de dados incumbido de desenvolver uma aplicação de perguntas e respostas para facilitar a extração de informações de documentos PDF contendo artigos científicos na área da saúde. Para construir essa aplicação, as seguintes estratégias foram apresentadas.

I. Utilizar a técnica de embeddings de texto para converter documentos PDF em vetores e armazená-los em um vectorstore, como ChromaDb ou Pinecone, permitindo buscas semânticas rápidas e eficientes baseadas no conteúdo dos artigos.

II. Desenvolver um sistema de indexação baseado em metadados extraídos dos documentos PDF, como autor, data de publicação e palavras-chave, para facilitar a filtragem e a busca por documentos específicos.

III. Implementar uma abordagem de processamento de linguagem natural (PLN) que empregue a API do modelo de linguagem para gerar respostas precisas às perguntas, utilizando os vetores e metadados armazenados para recuperar informações relevantes dos documentos e inseri-las no contexto do prompt.

IV. Realizar o fine-tuning do modelo de linguagem através de um dataset que contenha o conhecimento do domínio que se quer adicionar ao modelo, utilizando frameworks como LoRA ou QLoRA para fazer o merge desse dataset adicional treinado.

V. Criar uma hierarquia de documentos baseada na classificação dos artigos científicos por tópicos e subtópicos, utilizando algoritmos de clustering para organizar automaticamente os documentos em categorias relevantes.

Das estratégias acima:

A

apenas II e III são válidas.

B

apenas III, IV e V são válidas.

C

apenas I, II e III são válidas.

D

apenas I, III e IV são válidas.

E

todas são válidas.

Incorreta. Gabarito oficial da banca:

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Parabéns! Você acertou!

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Q3331519

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331519 Engenharia de Software

Acerca dos frameworks LangChain e Llamaindex, amplamente utilizados atualmente para construir aplicação integradas a Large Language Models (LLMs), a opção que apresenta uma observação correta é:

A

LlamaIndex é um framework projetado para aplicações que utilizam LLMs que se beneficiam de aumento de contexto, fornecendo abstrações que facilitam a ingestão, estruturação e acesso a dados independente de um domínio específico.

B

no LangChain, chains são sequências de chamadas a um LLM, ferramenta ou etapa de pré-processamento de dados, permitindo a criação de pipelines complexos sem necessidade de linguagem específica.

C

LangChain pode ser utilizado para tarefas como classificação de texto e tradução automática, mas não para extração de entidades nomeadas e geração de texto.

D

LLamaindex não oferece suporte à busca semântica, não permitindo que os usuários realizem buscas por documentos que contenham conceitos relacionados aos termos de busca.

E

no LangChain, chains implementam uma sequência de ações através de código, ao contrário de agents, onde um modelo de linguagem é utilizado como motor de raciocínio para determinar as ações a serem tomadas.

Incorreta. Gabarito oficial da banca:

Esse erro também aparece no seu Resumão. Veja o que melhorar

teste

Parabéns! Você acertou!

Esse acerto está no seu Resumão. Ver Resumão da semana

teste

Q3331518

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331518 Sistemas de Informação

Ao integrar informações provenientes de fontes de dados externas, como documentos ou bancos de dados, com Large Language Models (LLMs), é possível empregar uma variedade de técnicas e estratégias para construir aplicações adaptadas às demandas específicas de cada projeto e aos recursos disponíveis.
Das opções abaixo, a que descreve corretamente uma dessas técnicas é:

A

Prompt engineering é a prática de reduzir a complexidade dos modelos de linguagem de IA, simplificando-os para que reconheçam e respondam apenas a comandos básicos de uma palavra, evitando qualquer tipo de prompt contextualizado ou frase mais complexa.

B

Few-Shot Learning é uma abordagem que envolve treinar o modelo com pouco exemplos adicionais e específicos, denominados shots. O modelo usa esses exemplos para entender melhor o contexto ou a tarefa específica solicitada, permitindo que ele generalize a partir de poucos dados e aplique o aprendizado a situações semelhantes.

C

Retrieval-Augmented Generation (RAG) é uma técnica que combina a geração de texto de um LLM com um sistema de recuperação de informações; o modelo original é treinado com uma base de dados ou um conjunto de documentos específico, permitindo a incorporação de novos conhecimentos que não estavam presentes no corpus de treinamento original do modelo.

D

Fine-Tuning é um processo de ajuste fino que consiste em treinar um LLM com um dataset adicional, com o objetivo de personalizar o modelo para tarefas ou domínios específicos. Isso permite que o modelo adapte suas respostas com base no conhecimento ou nos dados contidos nesse dataset adicional.

E

Text-to-SQL é uma funcionalidade padrão integrada em todas as versões do SQL que automaticamente traduz instruções em linguagem natural para comandos SQL, eliminando a necessidade de conhecimento técnico em bancos de dados para a realização de consultas complexas.

Incorreta. Gabarito oficial da banca:

Veja como esse erro impacta seu desempenho geral. Ver estatísticas

teste

Parabéns! Você acertou!

Esse acerto melhora seu desempenho! Veja suas estatísticas

teste

Q3331517

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331517 Sistemas de Informação

Considerando o avanço recente dos modelos de Processamento de Linguagem Natural (PLN) e a necessidade crescente de processar e sumarizar grandes volumes de documentos de forma eficiente, você foi encarregado de desenvolver uma aplicação capaz de sumarizar automaticamente documentos clínicos, proporcionando aos profissionais de saúde acessos mais rápidos e precisos às informações relevantes dos pacientes. Um aspecto primordial no desenvolvimento de aplicações de sumarização é a avaliação dos sumários gerados, na medida em que os usuários passam a confiar nesses sumários para tomada de decisão.
Sobre avaliação de sumários, a opção que NÃO apresenta um modelo adequado para esta tarefa é:

A

ROUGE.

B

BLEU.

C

METEOR.

D

BERTScore.

E

PEGASUS.

Incorreta. Gabarito oficial da banca:

Salve essa questão em um caderno para revisar depois. Adicionar a um caderno

teste

Parabéns! Você acertou!

Mantenha o ritmo! Salve no caderno para revisar depois. Adicionar a um caderno

teste

Q3331516

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331516 Saúde Pública

O uso de Large Language Models (LLMs) na área da saúde, como GPT e BERT, oferece um vasto campo de possibilidades para inovação. Atualmente, é possível criar uma série de aplicações que fazem uso dessas LLMs, variando desde melhorias da qualidade e acessibilidade a conhecimentos até o apoio a novas pesquisas na área. Entre as opções abaixo, aquela que apresenta uma iniciativa que NÃO pode ser baseada no uso de LLMs é:

A

LLMs podem ser utilizadas para extrair informações críticas de registros médicos eletrônicos, notas de alta hospitalar e literatura científica, transformando dados não estruturados em insights valiosos para a pesquisa clínica e epidemiológica.

B

LLMs podem ser utilizadas para processar informações textuais sobre genética e biomarcadores, incluindo sequências de DNA/RNA, realizar análises genéticas complexas e interpretar dados laboratoriais brutos.

C

LLMs podem automatizar a criação de relatórios de pesquisa, sumários de políticas de saúde e comunicados à imprensa, facilitando a disseminação rápida de informações importantes para o público e a comunidade científica.

D

LLMs podem analisar extensas bases de dados de literatura científica para identificar padrões, tendências e lacunas no conhecimento, gerando novas hipóteses para pesquisa em saúde pública.

E

LLMs podem analisar dados de fontes abertas e redes sociais para detectar e monitorar surtos de doenças em tempo real, permitindo respostas rápidas a emergências de saúde pública.

Incorreta. Gabarito oficial da banca:

Veja esse conteúdo explicado passo a passo em nossos cursos. Buscar curso

teste

Parabéns! Você acertou!

Mandou bem! Revise esse tema nos nossos cursos. Buscar curso

teste

Q3331515

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331515 Ciência e Tecnologia

A evolução das tecnologias de Inteligência Artificial, especialmente no campo do Processamento de Linguagem Natural (PLN), tem sido marcada por inovações significativas que transformaram a maneira como as máquinas entendem e geram linguagem humana. Uma dessas inovações é a arquitetura de Transformers, introduzida pelo artigo Attention is All You Need em 2017, superando as limitações das abordagens anteriores baseadas em Redes Neurais Recorrentes (RNNs) e tornando-se a base fundamental para o surgimento dos Large Language Models (LLMs).
Sobre essa arquitetura, pode-se afirmar que:

A

a arquitetura dos Transformers depende exclusivamente de camadas recorrentes para processar sequências de texto, o que melhora a eficiência computacional em comparação com as RNNs.

B

os Transformers introduziram o conceito de atenção seletiva, permitindo que modelos focassem em partes relevantes do texto ao gerar respostas, algo que as RNNs não podem fazer.

C

os Transformers utilizam mecanismos de atenção que permitem a modelagem de dependências de longo alcance sem a necessidade de processamento sequencial, superando as limitações das RNNs.

D

a arquitetura dos Transformers substituiu as unidades de processamento baseadas em regras pelas redes neurais, o que não era possível com as RNNs.

E

a arquitetura dos Transformers elimina a necessidade de encoders e decoders, diferenciando-se das RNNs que dependem dessa estrutura para o Processamento de Linguagem Natural.

Incorreta. Gabarito oficial da banca:

Treine mais com um simulado focado no seu concurso. Criar simulado

teste

Parabéns! Você acertou!

Está mandando bem! Treine mais em um simulado completo. Criar simulado

teste

Q3331514

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331514 Programação

Você é um cientista de dados trabalhando em um projeto de pesquisa em saúde que envolve a análise de relatórios médicos utilizando técnicas de Processamento de Linguagem Natural (PLN). Parte do seu trabalho é explorar as relações semânticas entre diferentes condições de saúde utilizando um modelo pré-treinado de word embeddings em português, focado na área da saúde. Você decide investigar a relação entre diferentes doenças e tratamentos.

Seja o seguinte código Python, que utiliza a biblioteca gensim e um modelo hipotético de word embeddings denominado modelo_saude.bin especializado em termos médicos em português:

import numpy as np from gensim.models import KeyedVectors
def calcular_similaridade(vetor_a, vetor_b): numerador = np.dot(vetor_a, vetor_b) denominador = np.linalg.norm(vetor_a) *
np.linalg.norm(vetor_b) similaridade = numerador / denominador return similaridade
mo del = Ke yed Vectors. load_ word 2vec _ format(‘modelo_saude.bin’, binary=True) vetor_diabetes = model[‘diabetes’] vetor_hipertensao = model[‘hipertensão’] vetor_insulina = model[‘insulina’]
vetor_diabetes_ajustado = vetor_diabetes + vetor_insulina vetor_hipertensao_ajustado = vetor_hipertensao + vetor_insulina
similaridade = calcular_similaridade(vetor_ diabetes_ajustado, vetor_hipertensao_ajustado) print(f”Similaridade: {similaridade}”)

Utilizando o modelo hipotético model_saude.bin, o resultado mostrado pelo código foi de 0.7036085724830627. Baseado no cenário descrito, no código fornecido e no resultado mostrado, a opção que melhor descreve o que está sendo calculado e o significado do resultado é:

A

a distância euclidiana entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente forte.

B

a similaridade por cosseno entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente fraca.

C

a distância euclidiana entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente fraca.

D

a similaridade por cosseno entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente forte.

E

a distância euclidiana entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente neutra.

Incorreta. Gabarito oficial da banca:

Errou um tema comum da banca? Veja o que mais costuma cair no Raio-X. Ver raio-X

teste

Parabéns! Você acertou!

Essa questão segue o padrão da banca! Veja o que mais costuma cair. Ver raio-X

teste

Q3331513

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331513 Noções de Informática

Entre as observações abaixo sobre a técnica de Word Embeddings e sua importância em modelos de Processamento de Linguagem Natural (PLN), a que está correta é:

A

são algoritmos de criptografia que protegem palavras em um texto para garantir sua privacidade e suas relações semânticas, por isso são essenciais para a segurança e compreensão em aplicações de PLN.

B

são listas de sinônimos para palavras utilizadas em PLN, permitindo que sistemas de computador compreendam a variedade de vocabulário na linguagem humana e suas relações semânticas.

C

são representações vetoriais que capturam relações semânticas e sintáticas; são fundamentais para melhorar a precisão de modelos de PLN, ao permitir que computadores interpretem nuances de significado.

D

são técnicas de compressão de texto que reduzem o tamanho dos dados de linguagem para armazenamento eficiente em bancos de dados de PLN, enquanto permitem compreender suas relações semânticas.

E

são marcações automáticas de cada palavra em um texto com sua parte correspondente do discurso para análise semântica e sintática em PLN.

Incorreta. Gabarito oficial da banca:

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Parabéns! Você acertou!

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Q3331512

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331512 Programação

Observe o código Python abaixo, que utiliza a biblioteca NLTK para tarefas de Processamento de Linguagem Natural.

import nltk nltk.download(‘punkt’) from nltk.tokenize import word_tokenize
texto = “Fundação Oswaldo Cruz (Fiocruz): Ciência e tecnologia em saúde para a população brasileira.” tokens = word_tokenize(texto)
contador = 0 resultado = 0 while contador < len(tokens): for letra in tokens[contador]: if letra.upper() in ‘FIOCRUZ’: resultado += 1 contador += 1

O valor da variável resultado, ao final da execução do código, é:

A

32.

B

33.

C

34.

D

35.

E

36.

Incorreta. Gabarito oficial da banca:

Esse erro também aparece no seu Resumão. Veja o que melhorar

teste

Parabéns! Você acertou!

Esse acerto está no seu Resumão. Ver Resumão da semana

teste

Q3331511

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331511 Noções de Informática

O Processamento de Linguagem Natural (PLN) busca melhorar a capacidade das máquinas de entender e interagir com a linguagem humana de forma natural e semanticamente adequada. Ao longo dos anos, a evolução dos modelos de Machine Learning tem desempenhado um papel fundamental nesse processo, permitindo avanços significativos em tarefas como tradução automática, análise de sentimentos e assistentes virtuais. Esses modelos dependem de uma série de técnicas de pré-processamento para transformar texto bruto em formas que possam ser eficientemente analisadas e compreendidas. Numere a 2ª coluna pela primeira, considerando as técnicas e as respectivas definições.

COLUNA 1
(1) Tokenização, (2) POS Tagging, (3) Stemização, (4) Lematização e (5) Chunking.
COLUNA 2
( ) Técnica que transforma uma palavra para sua forma de dicionário, considerando o contexto, a classe gramatical e outras características linguísticas.

( ) Trata de dividir o texto em unidades menores, como palavras ou partes de palavras, transformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN.

( ) Refere-se a reduzir as palavras para suas formas radicais, facilitando a análise de padrões comuns em diferentes variações da mesma palavra.

( ) Técnica de atribuir a cada palavra em um texto a sua classe morfossintática, como substantivos, verbos, adjetivos, etc.

( ) Trata de dividir um texto em segmentos mais curtos, como conjuntos de palavras ou seções de um texto, que serão tratados separadamente em processos posteriores como, por exemplo, vetorização.

A sequência correta, de cima para baixo, é:

A

3 1 4 2 5.

B

4 2 3 1 5.

C

2 3 4 5 1.

D

3 2 4 5 1.

E

4 1 3 2 5.

Incorreta. Gabarito oficial da banca:

Veja como esse erro impacta seu desempenho geral. Ver estatísticas

teste

Parabéns! Você acertou!

Esse acerto melhora seu desempenho! Veja suas estatísticas

teste

Q3331510

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331510 Noções de Informática

As Redes Neurais Recorrentes (RNNs) são projetadas para processar dados sequenciais ou temporais, destacando-se pela sua capacidade de reter memória de entradas anteriores através de loops internos na sua arquitetura. Entre os algoritmos mais utilizados, destacam-se o Long Short-Term Memory (LSTM) e o Gated Recurrent Unit (GRU), ambos projetados para preservar informações ao longo do tempo e superar o desafio do desaparecimento do gradiente. Além disso, técnicas fundamentais como softmax, backpropagation e o processo feedforward são fundamentais para o treinamento e a eficácia das RNNs. Acerca dessas técnicas, a opção que apresenta uma observação INCORRETA é:

A

a função softmax pode ser usada na camada de saída das RNNs para realizar tarefas de regressão, convertendo os logits em valores contínuos que representam diferentes magnitudes.

B

durante o processo de feedforward em redes neurais, incluindo as RNNs, a informação é processada sequencialmente da camada de entrada até a camada de saída, utilizando funções de ativação para introduzir não-linearidade.

C

o backpropagation é o método pelo qual o erro é propagado de volta pela rede para atualizar os pesos, utilizando o gradiente do erro em relação a cada peso para fazer ajustes que minimizem o erro total da rede.

D

a função softmax na camada de saída de uma RNN é crucial para problemas de classificação, onde os logits são transformados em probabilidades que somam 1, facilitando a determinação da classe mais provável para a entrada dada.

E

o processo de feedforward e backpropagation em RNNs inclui o cálculo de gradientes para cada etapa temporal, ajustando os pesos não apenas com base na saída atual, mas também considerando a influência de entradas anteriores.

Incorreta. Gabarito oficial da banca:

Salve essa questão em um caderno para revisar depois. Adicionar a um caderno

teste

Parabéns! Você acertou!

Mantenha o ritmo! Salve no caderno para revisar depois. Adicionar a um caderno

teste

Q3331509

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331509 Estatística

Considere a seguinte implementação de um modelo de regressão linear múltipla utilizando NumPy e scikit-learn, usado para prever o financiamento de projetos com base em características de projetos e pesquisadores. O código abaixo foi executado e algumas métricas de desempenho foram obtidas.

import numpy as np from sklearn.model_selection import train_ test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

X = np.array([[1, 50], [2, 60], [3, 70], [4, 80], [5, 90], [1, 55], [2, 65], [3, 75], [4, 85], [5, 95]]) y = np.array([100000, 120000, 150000, 200000, 250000, 110000, 130000, 170000, 230000, 290000]) X_train, X_test, y_train, y_test = train_ test_split(X, y, test_size=0.2, random_ state=0)

model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)

r2 = r2_score(y_test, y_pred) mse = mean_squared_error(y_test, y_pred) rmse = np.sqrt(mse) mae = mean_absolute_error(y_test, y_pred)

print(f”R-Quadrado: {r2}, MSE: {mse}, RMSE: {rmse}, MAE: {mae}”)

Após executar o código, foram obtidas as seguintes métricas de desempenho:

R-Quadrado: 0.9020746527777778 , MSE: 156680555.5555556, R M S E : 1 2 5 1 7 . 2 1 0 3 7 4 3 4 2 8 2 3 , M A E : 10083.333333333343

Com base nessas informações, analise as observações abaixo.

I. O valor de R-Quadrado próximo de 1 indica que o modelo explica uma grande proporção da variância dos dados de financiamento. Isso sugere que o modelo tem um bom ajuste aos dados, sendo capaz de capturar uma grande parte da relação entre as variáveis independentes e a variável dependente.

II. Um valor de MSE de aproximadamente 156 milhões sugere que, em média, o quadrado dos erros das previsões do modelo em relação aos valores reais é significativo. Isso indica que o modelo tem um bom ajuste de acordo e não existem erros consideráveis nas previsões.

III. Um MAE de aproximadamente 10083 sugere que, em média, as previsões do modelo desviam cerca de 10083 unidades dos valores reais. Comparado ao RMSE, o MAE não dá um peso tão grande a erros maiores, o que sugere que o modelo pode ter um número relativamente consistente de pequenos a moderados erros de previsão.

IV.A diferença entre o RMSE e o MAE sugere que o modelo pode estar lidando com alguns outliers ou previsões particularmente imprecisas que afetam mais o RMSE, pois o RMSE penaliza mais erros maiores do que erros menores.

Sobre as afirmativas acima, pode-se dizer que:

A

apenas I e II estão corretas.

B

apenas I e III estão corretas.

C

apenas I, II e III estão corretas.

D

apenas I, III e IV estão corretas.

E

todas estão corretas.

Incorreta. Gabarito oficial da banca:

Veja esse conteúdo explicado passo a passo em nossos cursos. Buscar curso

teste

Parabéns! Você acertou!

Mandou bem! Revise esse tema nos nossos cursos. Buscar curso

teste

Q3331508

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331508 Programação

O scikit-learn é uma biblioteca de aprendizado de máquina para Python que fornece uma ampla variedade de classes e funções para análise de dados e modelagem de Machine Learning. Ele inclui algoritmos para classificação, regressão, clusterização, redução de dimensionalidade, seleção de modelos, pré-processamento de dados, entre outros.
Entre as opções abaixo, a que apresenta corretamente a combinação de classes e funções do scikit-learn usadas para implementar regressão do tipo polinomial e classificação com árvores de decisão é:

A

para regressão polinomial: linear_model.PolynomialRegression e preprocessing.LinearFeatures; para árvores de decisão: tree.DecisionTreeRegressor

B

para regressão polinomial: preprocessing.PolynomialFeatures e linear_model.LinearRegression; para árvores de decisão: tree.DecisionTreeClassifier.

C

para regressão polinomial: preprocessing.PolynomialFeatures e linear_model.LinearRegression; para árvores de decisão: tree.DecisionTreeRegressor.

D

para regressão polinomial: linear_model.PolynomialFeatures e preprocessing.LinearRegression; para árvores de decisão: tree.DecisionClassifier.

E

para regressão polinomial: preprocessing.LinearFeatures e linear_model.PolynomialRegression; para árvores de decisão: tree.TreeDecisionClassifier.

Incorreta. Gabarito oficial da banca:

Treine mais com um simulado focado no seu concurso. Criar simulado

teste

Parabéns! Você acertou!

Está mandando bem! Treine mais em um simulado completo. Criar simulado

teste

Q3331507

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331507 Noções de Informática

Modelos de Machine Learning (ML) são parte fundamental do conhecimento no campo de um cientista de dados, objetivando a compreensão de padrões complexos e a tomada de decisão baseada em dados. Esses modelos permitem que cientistas de dados transformem grandes volumes de dados brutos em insights acionáveis, previsões e recomendações com precisão que frequentemente supera análises tradicionais.
Considerando a base de dados contendo projetos, pesquisadores, publicações e financiamentos, diversos modelos de aprendizado de máquina podem ser criados. Entre as opções abaixo, a que apresenta uma relação INCORRETA entre objetivo, tipo de aprendizado e tipo de algoritmo de aprendizado de máquina é:

A

previsão de financiamento de projetos com o objetivo de calcular o valor de financiamento que um projeto pode receber, baseando-se em características do projeto, atributos dos pesquisadores envolvidos e dados históricos de financiamento de projetos similares; trata-se um aprendizado supervisionado com algoritmo de regressão, que pode ser implementado por uma regressão polinomial ou regressão com regularização.

B

detecção de comunidades de pesquisa com o objetivo de identificar grupos dentro de um campo específico, com base na análise de coautoria e citações entre pesquisadores. Trata-se de um aprendizado não supervisionado com algoritmo de clusterização, que pode ser implementado por SVMs – Support Vector Machines.

C

análise de tendências de pesquisa com o objetivo de identificar áreas emergentes de pesquisa e tendências ao longo do tempo com base em análise de tópicos em publicações. Trata-se de um aprendizado não supervisionado com algoritmo de modelagem de tópicos, como LDA – Latent Dirichlet Allocation.

D

análise de sentimentos de publicações com o objetivo de avaliar revisões e comentários e identificar feedbacks predominantemente positivos ou negativos; trata-se de um aprendizado supervisionado, que pode ser implementado com Redes Neurais Recorrentes (RNN) e Long Short Term Memory (LSTM).

E

classificação de projetos com o objetivo de categorizar projetos de acordo com critérios relevantes, como disciplina científica, tipo de financiamento, escopo, entre outros; trata-se de um aprendizado supervisionado, que pode ser implementado por árvores de decisão.

Incorreta. Gabarito oficial da banca:

Errou um tema comum da banca? Veja o que mais costuma cair no Raio-X. Ver raio-X

teste

Parabéns! Você acertou!

Essa questão segue o padrão da banca! Veja o que mais costuma cair. Ver raio-X

teste

Q3331506

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331506 Programação

Além da linguagem Python, a linguagem R é uma poderosa ferramenta estatística e gráfica utilizada por cientistas de dados em todo o mundo. Originária do ambiente acadêmico e com forte apoio da comunidade de estatística, R rapidamente se consolidou como uma das linguagens de programação de escolha para análise de dados, pesquisa científica, e qualquer aplicação que exija manipulação intensiva de dados, análise estatística ou visualização gráfica.
Considere o sumário exibido abaixo, saída do comando summary(df) da linguagem R:

Imagem associada para resolução da questão

Imagem associada para resolução da questão

Com base nesta informação, a opção que contém uma observação INCORRETA é:

A

a distribuição da variável financiamento_id mostra uma amplitude total de valores que vai de 1 a 8, evidenciando a variação total nos identificadores de financiamento dentro do conjunto de dados.

B

os indicadores de tendência central para projeto_id, com uma média de 2.375 e uma mediana de 2.500, refletem uma distribuição dos dados que tende a ser equilibrada, sem uma inclinação acentuada para valores mais altos ou mais baixos.

C

as variáveis fonte, data_inicio e data_termino são categorizadas como dados categóricos nominais, dado que representam informações qualitativas sem uma ordem inerente, e são armazenadas como caracteres, indicando o tipo de dado textual.

D

o terceiro quartil da variável valor é 10.000, o que indica que 75% dos valores de financiamento são iguais ou inferiores a 10.000, demonstrando a posição dos valores de financiamento no contexto de dispersão e distribuição de quartis.

E

a proximidade entre a média e a mediana dos valores de financiamento sugere uma distribuição altamente assimétrica, com uma presença significativa de valores extremos que distorcem a média, como é o caso do valor 22.000.

Incorreta. Gabarito oficial da banca:

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Parabéns! Você acertou!

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

🚀 Mais performance?

🚀 Mais performance?

Foram encontradas 4.871 questões

Resolva questões gratuitamente!

, continue estudando de graça!