Questões de Concurso Comentadas para Tecnologista

Q3331527

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331527 Programação

Dataframes da biblioteca Pandas no Python são muito versáteis. Com eles é possível ler, processar, transformar e exportar dados tabulares com grande eficiência. Considere um dataframe criado a partir da leitura de um arquivo do tipo csv (comma separated value). Só devem ser carregadas as primeiras mil linhas das colunas A, B e C. Além disso, todos os valores devem ser convertidos para o tipo string. Os parâmetros e valores do método read_csv() que possibilitam isso são:

A

nrows=1000, usecols=[‘A’, ‘B’, ‘C’] e dtype=str.

B

nrows=1k, usecols=[‘A’, ‘B’, ‘C’] e type=String.

C

lines=1000, columns=[‘A’, ‘B’, ‘C’] e dtype=String.

D

nrows=1000, names=[‘A’, ‘B’, ‘C’] e type=str.

E

lines=1k, columns=[‘A’, ‘B’, ‘C’] e dtype=str.

Incorreta. Gabarito oficial da banca:

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Parabéns! Você acertou!

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Q3331526

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331526 Saúde Pública

Um grupo de pesquisadores deseja acompanhar o histórico de internações hospitalares de mães nascidas após o ano 1997 e que tiveram filhos com baixo peso ao nascer. A ideia central é identificar agravos de saúde que podem contribuir para o baixo peso das crianças no momento do parto. Para isso, os pesquisadores pretendem utilizar duas bases de dados disponíveis para download no DATASUS em acesso aberto: o Sistema de Informações sobre Nascidos Vivos (SINASC) e o Sistema de Informações Hospitalares (SIH/SUS). A pesquisa analisará os dados de nascimentos e internações hospitalar entre 2012 e 2022.

Das opções abaixo, o real motivo que impede o desenvolvimento desse projeto é:

A

não há dados no SINASC sobre o nascimento das mães em 1997, pois o seu funcionamento se inicia no ano 2000.

B

não é possível vincular as internações da mãe ao nascimento da criança com baixo peso, pois não há atributos que possam fazer essa vinculação nas bases citadas.

C

o SINASC é um sistema com informações sobre nascidos vivos, não sobre suas mães.

D

o SIH/SUS coleta, reúne e publica dados a cada dois anos (somente em anos pares), o que impede uma análise completa no intervalo 2012 e 2022.

E

o SINASC não registra informações sobre peso ao nascer.

Incorreta. Gabarito oficial da banca:

Esse erro também aparece no seu Resumão. Veja o que melhorar

teste

Parabéns! Você acertou!

Esse acerto está no seu Resumão. Ver Resumão da semana

teste

Q3331525

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331525 Direito Sanitário

Sobre o direito à saúde previsto na Lei Orgânica da Saúde (Lei nº 8080/1990) e na Constituição Federal (1988), avalie se são verdadeiras (V) ou falsas (F) as afirmativas a seguir:

I. A saúde é um direito fundamental do ser humano, devendo o Estado, sempre que possível, prover as condições indispensáveis ao seu pleno exercício.

II. O dever do Estado não exclui o das pessoas, da família, das empresas e da sociedade.

III. A saúde é direito de todos e dever do Estado, garantido mediante políticas sociais e econômicas que visem à redução do risco de doença.

As afirmativas I, II e III são, respectivamente:

A

F, V e V.

B

V, V e F.

C

V, F e V.

D

F, F e V.

E

V, V e V.

Incorreta. Gabarito oficial da banca:

Veja como esse erro impacta seu desempenho geral. Ver estatísticas

teste

Parabéns! Você acertou!

Esse acerto melhora seu desempenho! Veja suas estatísticas

teste

Q3331524

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331524 Direito Sanitário

Segundo a Lei Orgânica da Saúde (Lei nº 8080/1990), os serviços públicos de saúde e os serviços privados contratados ou conveniados que integram o Sistema Único de Saúde (SUS) devem obedecer aos princípios abaixo, EXCETO:

A

direito à informação, às pessoas assistidas, sobre sua saúde.

B

universalidade de acesso aos serviços de saúde em todos os níveis de assistência.

C

igualdade da assistência à saúde, sem preconceitos ou privilégios de qualquer espécie.

D

encaminhamento do paciente para inscrição em programas de complementação de renda, caso necessário.

E

descentralização político-administrativa, com direção única em cada esfera de governo.

Incorreta. Gabarito oficial da banca:

Salve essa questão em um caderno para revisar depois. Adicionar a um caderno

teste

Parabéns! Você acertou!

Mantenha o ritmo! Salve no caderno para revisar depois. Adicionar a um caderno

teste

Q3331523

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331523 Saúde Pública

Considerando a definição, pilares e objetivos da Saúde Coletiva, avalie se são verdadeiras (V) ou falsas (F) as afirmativas a seguir:

I. A saúde é definida como ausência de doenças.
II. Tem como característica ações isoladas da Vigilância Epidemiológica e Sanitária.
II. É considerada a influência de fatores sociais, econômicos e culturais na saúde das comunidades.

As afirmativas I, II e III são, respectivamente:

A

V, F e V.

B

F, V e F.

C

F, F e V.

D

V, V e V.

E

F, V e V.

Incorreta. Gabarito oficial da banca:

Veja esse conteúdo explicado passo a passo em nossos cursos. Buscar curso

teste

Parabéns! Você acertou!

Mandou bem! Revise esse tema nos nossos cursos. Buscar curso

teste

Q3331522

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331522 Noções de Informática

Disseminados pelo DATASUS para download (ftp.datasus.gov.br), os dados desagregados sobre a declaração de óbito do Sistema de Informação sobre Mortalidade (SIM) estão disponíveis com a extensão:

A

parquet.

B

tsv.

C

pdf.

D

dbc.

E

xslx.

Incorreta. Gabarito oficial da banca:

Treine mais com um simulado focado no seu concurso. Criar simulado

teste

Parabéns! Você acertou!

Está mandando bem! Treine mais em um simulado completo. Criar simulado

teste

Q3331521

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331521 Saúde Pública

O Departamento de Informática do Sistema Único de Saúde (DATASUS) disponibiliza inúmeros arquivos para o enriquecimento das bases de dados disponíveis para download. Alguns atributos são preenchidos com informações da classificação estatística internacional de doenças e problemas relacionados com a Saúde (CID-10). São disponibilizados pelo DATASUS arquivos que permitem a agregação das doenças em:

A

módulo, capítulo e grupo.

B

capítulo, grupo e categoria.

C

artigo, grupo e categoria.

D

capítulo, artigo e inciso.

E

artigo, inciso e módulo.

Incorreta. Gabarito oficial da banca:

Errou um tema comum da banca? Veja o que mais costuma cair no Raio-X. Ver raio-X

teste

Parabéns! Você acertou!

Essa questão segue o padrão da banca! Veja o que mais costuma cair. Ver raio-X

teste

Q3331520

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331520 Sistemas de Informação

Você é um cientista de dados incumbido de desenvolver uma aplicação de perguntas e respostas para facilitar a extração de informações de documentos PDF contendo artigos científicos na área da saúde. Para construir essa aplicação, as seguintes estratégias foram apresentadas.

I. Utilizar a técnica de embeddings de texto para converter documentos PDF em vetores e armazená-los em um vectorstore, como ChromaDb ou Pinecone, permitindo buscas semânticas rápidas e eficientes baseadas no conteúdo dos artigos.

II. Desenvolver um sistema de indexação baseado em metadados extraídos dos documentos PDF, como autor, data de publicação e palavras-chave, para facilitar a filtragem e a busca por documentos específicos.

III. Implementar uma abordagem de processamento de linguagem natural (PLN) que empregue a API do modelo de linguagem para gerar respostas precisas às perguntas, utilizando os vetores e metadados armazenados para recuperar informações relevantes dos documentos e inseri-las no contexto do prompt.

IV. Realizar o fine-tuning do modelo de linguagem através de um dataset que contenha o conhecimento do domínio que se quer adicionar ao modelo, utilizando frameworks como LoRA ou QLoRA para fazer o merge desse dataset adicional treinado.

V. Criar uma hierarquia de documentos baseada na classificação dos artigos científicos por tópicos e subtópicos, utilizando algoritmos de clustering para organizar automaticamente os documentos em categorias relevantes.

Das estratégias acima:

A

apenas II e III são válidas.

B

apenas III, IV e V são válidas.

C

apenas I, II e III são válidas.

D

apenas I, III e IV são válidas.

E

todas são válidas.

Incorreta. Gabarito oficial da banca:

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Parabéns! Você acertou!

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Q3331519

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331519 Engenharia de Software

Acerca dos frameworks LangChain e Llamaindex, amplamente utilizados atualmente para construir aplicação integradas a Large Language Models (LLMs), a opção que apresenta uma observação correta é:

A

LlamaIndex é um framework projetado para aplicações que utilizam LLMs que se beneficiam de aumento de contexto, fornecendo abstrações que facilitam a ingestão, estruturação e acesso a dados independente de um domínio específico.

B

no LangChain, chains são sequências de chamadas a um LLM, ferramenta ou etapa de pré-processamento de dados, permitindo a criação de pipelines complexos sem necessidade de linguagem específica.

C

LangChain pode ser utilizado para tarefas como classificação de texto e tradução automática, mas não para extração de entidades nomeadas e geração de texto.

D

LLamaindex não oferece suporte à busca semântica, não permitindo que os usuários realizem buscas por documentos que contenham conceitos relacionados aos termos de busca.

E

no LangChain, chains implementam uma sequência de ações através de código, ao contrário de agents, onde um modelo de linguagem é utilizado como motor de raciocínio para determinar as ações a serem tomadas.

Incorreta. Gabarito oficial da banca:

Esse erro também aparece no seu Resumão. Veja o que melhorar

teste

Parabéns! Você acertou!

Esse acerto está no seu Resumão. Ver Resumão da semana

teste

Q3331518

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331518 Sistemas de Informação

Ao integrar informações provenientes de fontes de dados externas, como documentos ou bancos de dados, com Large Language Models (LLMs), é possível empregar uma variedade de técnicas e estratégias para construir aplicações adaptadas às demandas específicas de cada projeto e aos recursos disponíveis.
Das opções abaixo, a que descreve corretamente uma dessas técnicas é:

A

Prompt engineering é a prática de reduzir a complexidade dos modelos de linguagem de IA, simplificando-os para que reconheçam e respondam apenas a comandos básicos de uma palavra, evitando qualquer tipo de prompt contextualizado ou frase mais complexa.

B

Few-Shot Learning é uma abordagem que envolve treinar o modelo com pouco exemplos adicionais e específicos, denominados shots. O modelo usa esses exemplos para entender melhor o contexto ou a tarefa específica solicitada, permitindo que ele generalize a partir de poucos dados e aplique o aprendizado a situações semelhantes.

C

Retrieval-Augmented Generation (RAG) é uma técnica que combina a geração de texto de um LLM com um sistema de recuperação de informações; o modelo original é treinado com uma base de dados ou um conjunto de documentos específico, permitindo a incorporação de novos conhecimentos que não estavam presentes no corpus de treinamento original do modelo.

D

Fine-Tuning é um processo de ajuste fino que consiste em treinar um LLM com um dataset adicional, com o objetivo de personalizar o modelo para tarefas ou domínios específicos. Isso permite que o modelo adapte suas respostas com base no conhecimento ou nos dados contidos nesse dataset adicional.

E

Text-to-SQL é uma funcionalidade padrão integrada em todas as versões do SQL que automaticamente traduz instruções em linguagem natural para comandos SQL, eliminando a necessidade de conhecimento técnico em bancos de dados para a realização de consultas complexas.

Incorreta. Gabarito oficial da banca:

Veja como esse erro impacta seu desempenho geral. Ver estatísticas

teste

Parabéns! Você acertou!

Esse acerto melhora seu desempenho! Veja suas estatísticas

teste

Q3331517

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331517 Sistemas de Informação

Considerando o avanço recente dos modelos de Processamento de Linguagem Natural (PLN) e a necessidade crescente de processar e sumarizar grandes volumes de documentos de forma eficiente, você foi encarregado de desenvolver uma aplicação capaz de sumarizar automaticamente documentos clínicos, proporcionando aos profissionais de saúde acessos mais rápidos e precisos às informações relevantes dos pacientes. Um aspecto primordial no desenvolvimento de aplicações de sumarização é a avaliação dos sumários gerados, na medida em que os usuários passam a confiar nesses sumários para tomada de decisão.
Sobre avaliação de sumários, a opção que NÃO apresenta um modelo adequado para esta tarefa é:

A

ROUGE.

B

BLEU.

C

METEOR.

D

BERTScore.

E

PEGASUS.

Incorreta. Gabarito oficial da banca:

Salve essa questão em um caderno para revisar depois. Adicionar a um caderno

teste

Parabéns! Você acertou!

Mantenha o ritmo! Salve no caderno para revisar depois. Adicionar a um caderno

teste

Q3331516

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331516 Saúde Pública

O uso de Large Language Models (LLMs) na área da saúde, como GPT e BERT, oferece um vasto campo de possibilidades para inovação. Atualmente, é possível criar uma série de aplicações que fazem uso dessas LLMs, variando desde melhorias da qualidade e acessibilidade a conhecimentos até o apoio a novas pesquisas na área. Entre as opções abaixo, aquela que apresenta uma iniciativa que NÃO pode ser baseada no uso de LLMs é:

A

LLMs podem ser utilizadas para extrair informações críticas de registros médicos eletrônicos, notas de alta hospitalar e literatura científica, transformando dados não estruturados em insights valiosos para a pesquisa clínica e epidemiológica.

B

LLMs podem ser utilizadas para processar informações textuais sobre genética e biomarcadores, incluindo sequências de DNA/RNA, realizar análises genéticas complexas e interpretar dados laboratoriais brutos.

C

LLMs podem automatizar a criação de relatórios de pesquisa, sumários de políticas de saúde e comunicados à imprensa, facilitando a disseminação rápida de informações importantes para o público e a comunidade científica.

D

LLMs podem analisar extensas bases de dados de literatura científica para identificar padrões, tendências e lacunas no conhecimento, gerando novas hipóteses para pesquisa em saúde pública.

E

LLMs podem analisar dados de fontes abertas e redes sociais para detectar e monitorar surtos de doenças em tempo real, permitindo respostas rápidas a emergências de saúde pública.

Incorreta. Gabarito oficial da banca:

Veja esse conteúdo explicado passo a passo em nossos cursos. Buscar curso

teste

Parabéns! Você acertou!

Mandou bem! Revise esse tema nos nossos cursos. Buscar curso

teste

Q3331515

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331515 Ciência e Tecnologia

A evolução das tecnologias de Inteligência Artificial, especialmente no campo do Processamento de Linguagem Natural (PLN), tem sido marcada por inovações significativas que transformaram a maneira como as máquinas entendem e geram linguagem humana. Uma dessas inovações é a arquitetura de Transformers, introduzida pelo artigo Attention is All You Need em 2017, superando as limitações das abordagens anteriores baseadas em Redes Neurais Recorrentes (RNNs) e tornando-se a base fundamental para o surgimento dos Large Language Models (LLMs).
Sobre essa arquitetura, pode-se afirmar que:

A

a arquitetura dos Transformers depende exclusivamente de camadas recorrentes para processar sequências de texto, o que melhora a eficiência computacional em comparação com as RNNs.

B

os Transformers introduziram o conceito de atenção seletiva, permitindo que modelos focassem em partes relevantes do texto ao gerar respostas, algo que as RNNs não podem fazer.

C

os Transformers utilizam mecanismos de atenção que permitem a modelagem de dependências de longo alcance sem a necessidade de processamento sequencial, superando as limitações das RNNs.

D

a arquitetura dos Transformers substituiu as unidades de processamento baseadas em regras pelas redes neurais, o que não era possível com as RNNs.

E

a arquitetura dos Transformers elimina a necessidade de encoders e decoders, diferenciando-se das RNNs que dependem dessa estrutura para o Processamento de Linguagem Natural.

Incorreta. Gabarito oficial da banca:

Treine mais com um simulado focado no seu concurso. Criar simulado

teste

Parabéns! Você acertou!

Está mandando bem! Treine mais em um simulado completo. Criar simulado

teste

Q3331514

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331514 Programação

Você é um cientista de dados trabalhando em um projeto de pesquisa em saúde que envolve a análise de relatórios médicos utilizando técnicas de Processamento de Linguagem Natural (PLN). Parte do seu trabalho é explorar as relações semânticas entre diferentes condições de saúde utilizando um modelo pré-treinado de word embeddings em português, focado na área da saúde. Você decide investigar a relação entre diferentes doenças e tratamentos.

Seja o seguinte código Python, que utiliza a biblioteca gensim e um modelo hipotético de word embeddings denominado modelo_saude.bin especializado em termos médicos em português:

import numpy as np from gensim.models import KeyedVectors
def calcular_similaridade(vetor_a, vetor_b): numerador = np.dot(vetor_a, vetor_b) denominador = np.linalg.norm(vetor_a) *
np.linalg.norm(vetor_b) similaridade = numerador / denominador return similaridade
mo del = Ke yed Vectors. load_ word 2vec _ format(‘modelo_saude.bin’, binary=True) vetor_diabetes = model[‘diabetes’] vetor_hipertensao = model[‘hipertensão’] vetor_insulina = model[‘insulina’]
vetor_diabetes_ajustado = vetor_diabetes + vetor_insulina vetor_hipertensao_ajustado = vetor_hipertensao + vetor_insulina
similaridade = calcular_similaridade(vetor_ diabetes_ajustado, vetor_hipertensao_ajustado) print(f”Similaridade: {similaridade}”)

Utilizando o modelo hipotético model_saude.bin, o resultado mostrado pelo código foi de 0.7036085724830627. Baseado no cenário descrito, no código fornecido e no resultado mostrado, a opção que melhor descreve o que está sendo calculado e o significado do resultado é:

A

a distância euclidiana entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente forte.

B

a similaridade por cosseno entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente fraca.

C

a distância euclidiana entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente fraca.

D

a similaridade por cosseno entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente forte.

E

a distância euclidiana entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente neutra.

Incorreta. Gabarito oficial da banca:

Errou um tema comum da banca? Veja o que mais costuma cair no Raio-X. Ver raio-X

teste

Parabéns! Você acertou!

Essa questão segue o padrão da banca! Veja o que mais costuma cair. Ver raio-X

teste

Q3331513

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331513 Noções de Informática

Entre as observações abaixo sobre a técnica de Word Embeddings e sua importância em modelos de Processamento de Linguagem Natural (PLN), a que está correta é:

A

são algoritmos de criptografia que protegem palavras em um texto para garantir sua privacidade e suas relações semânticas, por isso são essenciais para a segurança e compreensão em aplicações de PLN.

B

são listas de sinônimos para palavras utilizadas em PLN, permitindo que sistemas de computador compreendam a variedade de vocabulário na linguagem humana e suas relações semânticas.

C

são representações vetoriais que capturam relações semânticas e sintáticas; são fundamentais para melhorar a precisão de modelos de PLN, ao permitir que computadores interpretem nuances de significado.

D

são técnicas de compressão de texto que reduzem o tamanho dos dados de linguagem para armazenamento eficiente em bancos de dados de PLN, enquanto permitem compreender suas relações semânticas.

E

são marcações automáticas de cada palavra em um texto com sua parte correspondente do discurso para análise semântica e sintática em PLN.

Incorreta. Gabarito oficial da banca:

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Parabéns! Você acertou!

Compare seu desempenho com quem faz o mesmo concurso. Ver concorrência

teste

Q3331512

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331512 Programação

Observe o código Python abaixo, que utiliza a biblioteca NLTK para tarefas de Processamento de Linguagem Natural.

import nltk nltk.download(‘punkt’) from nltk.tokenize import word_tokenize
texto = “Fundação Oswaldo Cruz (Fiocruz): Ciência e tecnologia em saúde para a população brasileira.” tokens = word_tokenize(texto)
contador = 0 resultado = 0 while contador < len(tokens): for letra in tokens[contador]: if letra.upper() in ‘FIOCRUZ’: resultado += 1 contador += 1

O valor da variável resultado, ao final da execução do código, é:

A

32.

B

33.

C

34.

D

35.

E

36.

Incorreta. Gabarito oficial da banca:

Esse erro também aparece no seu Resumão. Veja o que melhorar

teste

Parabéns! Você acertou!

Esse acerto está no seu Resumão. Ver Resumão da semana

teste

Q3331511

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331511 Noções de Informática

O Processamento de Linguagem Natural (PLN) busca melhorar a capacidade das máquinas de entender e interagir com a linguagem humana de forma natural e semanticamente adequada. Ao longo dos anos, a evolução dos modelos de Machine Learning tem desempenhado um papel fundamental nesse processo, permitindo avanços significativos em tarefas como tradução automática, análise de sentimentos e assistentes virtuais. Esses modelos dependem de uma série de técnicas de pré-processamento para transformar texto bruto em formas que possam ser eficientemente analisadas e compreendidas. Numere a 2ª coluna pela primeira, considerando as técnicas e as respectivas definições.

COLUNA 1
(1) Tokenização, (2) POS Tagging, (3) Stemização, (4) Lematização e (5) Chunking.
COLUNA 2
( ) Técnica que transforma uma palavra para sua forma de dicionário, considerando o contexto, a classe gramatical e outras características linguísticas.

( ) Trata de dividir o texto em unidades menores, como palavras ou partes de palavras, transformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN.

( ) Refere-se a reduzir as palavras para suas formas radicais, facilitando a análise de padrões comuns em diferentes variações da mesma palavra.

( ) Técnica de atribuir a cada palavra em um texto a sua classe morfossintática, como substantivos, verbos, adjetivos, etc.

( ) Trata de dividir um texto em segmentos mais curtos, como conjuntos de palavras ou seções de um texto, que serão tratados separadamente em processos posteriores como, por exemplo, vetorização.

A sequência correta, de cima para baixo, é:

A

3 1 4 2 5.

B

4 2 3 1 5.

C

2 3 4 5 1.

D

3 2 4 5 1.

E

4 1 3 2 5.

Incorreta. Gabarito oficial da banca:

Veja como esse erro impacta seu desempenho geral. Ver estatísticas

teste

Parabéns! Você acertou!

Esse acerto melhora seu desempenho! Veja suas estatísticas

teste

Q3331510

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331510 Noções de Informática

As Redes Neurais Recorrentes (RNNs) são projetadas para processar dados sequenciais ou temporais, destacando-se pela sua capacidade de reter memória de entradas anteriores através de loops internos na sua arquitetura. Entre os algoritmos mais utilizados, destacam-se o Long Short-Term Memory (LSTM) e o Gated Recurrent Unit (GRU), ambos projetados para preservar informações ao longo do tempo e superar o desafio do desaparecimento do gradiente. Além disso, técnicas fundamentais como softmax, backpropagation e o processo feedforward são fundamentais para o treinamento e a eficácia das RNNs. Acerca dessas técnicas, a opção que apresenta uma observação INCORRETA é:

A

a função softmax pode ser usada na camada de saída das RNNs para realizar tarefas de regressão, convertendo os logits em valores contínuos que representam diferentes magnitudes.

B

durante o processo de feedforward em redes neurais, incluindo as RNNs, a informação é processada sequencialmente da camada de entrada até a camada de saída, utilizando funções de ativação para introduzir não-linearidade.

C

o backpropagation é o método pelo qual o erro é propagado de volta pela rede para atualizar os pesos, utilizando o gradiente do erro em relação a cada peso para fazer ajustes que minimizem o erro total da rede.

D

a função softmax na camada de saída de uma RNN é crucial para problemas de classificação, onde os logits são transformados em probabilidades que somam 1, facilitando a determinação da classe mais provável para a entrada dada.

E

o processo de feedforward e backpropagation em RNNs inclui o cálculo de gradientes para cada etapa temporal, ajustando os pesos não apenas com base na saída atual, mas também considerando a influência de entradas anteriores.

Incorreta. Gabarito oficial da banca:

Salve essa questão em um caderno para revisar depois. Adicionar a um caderno

teste

Parabéns! Você acertou!

Mantenha o ritmo! Salve no caderno para revisar depois. Adicionar a um caderno

teste

Q3331508

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331508 Programação

O scikit-learn é uma biblioteca de aprendizado de máquina para Python que fornece uma ampla variedade de classes e funções para análise de dados e modelagem de Machine Learning. Ele inclui algoritmos para classificação, regressão, clusterização, redução de dimensionalidade, seleção de modelos, pré-processamento de dados, entre outros.
Entre as opções abaixo, a que apresenta corretamente a combinação de classes e funções do scikit-learn usadas para implementar regressão do tipo polinomial e classificação com árvores de decisão é:

A

para regressão polinomial: linear_model.PolynomialRegression e preprocessing.LinearFeatures; para árvores de decisão: tree.DecisionTreeRegressor

B

para regressão polinomial: preprocessing.PolynomialFeatures e linear_model.LinearRegression; para árvores de decisão: tree.DecisionTreeClassifier.

C

para regressão polinomial: preprocessing.PolynomialFeatures e linear_model.LinearRegression; para árvores de decisão: tree.DecisionTreeRegressor.

D

para regressão polinomial: linear_model.PolynomialFeatures e preprocessing.LinearRegression; para árvores de decisão: tree.DecisionClassifier.

E

para regressão polinomial: preprocessing.LinearFeatures e linear_model.PolynomialRegression; para árvores de decisão: tree.TreeDecisionClassifier.

Incorreta. Gabarito oficial da banca:

Treine mais com um simulado focado no seu concurso. Criar simulado

teste

Parabéns! Você acertou!

Está mandando bem! Treine mais em um simulado completo. Criar simulado

teste

Q3331507

Ano: 2024 Banca: FIOCRUZ Órgão: FIOCRUZ Prova: FIOCRUZ - 2024 - FIOCRUZ - Tecnologista em Saúde Pública - TE56 - Cientista de Dados em Saúde |

Q3331507 Noções de Informática

Modelos de Machine Learning (ML) são parte fundamental do conhecimento no campo de um cientista de dados, objetivando a compreensão de padrões complexos e a tomada de decisão baseada em dados. Esses modelos permitem que cientistas de dados transformem grandes volumes de dados brutos em insights acionáveis, previsões e recomendações com precisão que frequentemente supera análises tradicionais.
Considerando a base de dados contendo projetos, pesquisadores, publicações e financiamentos, diversos modelos de aprendizado de máquina podem ser criados. Entre as opções abaixo, a que apresenta uma relação INCORRETA entre objetivo, tipo de aprendizado e tipo de algoritmo de aprendizado de máquina é:

A

previsão de financiamento de projetos com o objetivo de calcular o valor de financiamento que um projeto pode receber, baseando-se em características do projeto, atributos dos pesquisadores envolvidos e dados históricos de financiamento de projetos similares; trata-se um aprendizado supervisionado com algoritmo de regressão, que pode ser implementado por uma regressão polinomial ou regressão com regularização.

B

detecção de comunidades de pesquisa com o objetivo de identificar grupos dentro de um campo específico, com base na análise de coautoria e citações entre pesquisadores. Trata-se de um aprendizado não supervisionado com algoritmo de clusterização, que pode ser implementado por SVMs – Support Vector Machines.

C

análise de tendências de pesquisa com o objetivo de identificar áreas emergentes de pesquisa e tendências ao longo do tempo com base em análise de tópicos em publicações. Trata-se de um aprendizado não supervisionado com algoritmo de modelagem de tópicos, como LDA – Latent Dirichlet Allocation.

D

análise de sentimentos de publicações com o objetivo de avaliar revisões e comentários e identificar feedbacks predominantemente positivos ou negativos; trata-se de um aprendizado supervisionado, que pode ser implementado com Redes Neurais Recorrentes (RNN) e Long Short Term Memory (LSTM).

E

classificação de projetos com o objetivo de categorizar projetos de acordo com critérios relevantes, como disciplina científica, tipo de financiamento, escopo, entre outros; trata-se de um aprendizado supervisionado, que pode ser implementado por árvores de decisão.

Incorreta. Gabarito oficial da banca:

Errou um tema comum da banca? Veja o que mais costuma cair no Raio-X. Ver raio-X

teste

Parabéns! Você acertou!

Essa questão segue o padrão da banca! Veja o que mais costuma cair. Ver raio-X

teste

🚀 Mais performance?

🚀 Mais performance?

Questões de Concurso Comentadas para tecnologista

Foram encontradas 4.000 questões

Resolva questões gratuitamente!

, continue estudando de graça!