Você é um cientista de dados trabalhando em um projeto
de pesquisa em saúde que envolve a análise de relatórios
médicos utilizando técnicas de Processamento de Linguagem Natural (PLN). Parte do seu trabalho é explorar as
relações semânticas entre diferentes condições de saúde
utilizando um modelo pré-treinado de word embeddings em
português, focado na área da saúde. Você decide investigar
a relação entre diferentes doenças e tratamentos.
Seja o seguinte código Python, que utiliza a biblioteca
gensim e um modelo hipotético de word embeddings
denominado modelo_saude.bin especializado em termos
médicos em português:
import numpy as np
from gensim.models import KeyedVectors

def calcular_similaridade(vetor_a, vetor_b):
numerador = np.dot(vetor_a, vetor_b)
denominador = np.linalg.norm(vetor_a) *

np.linalg.norm(vetor_b)
similaridade = numerador / denominador
return similaridade

mo del = Ke yed Vectors. load_ word 2vec _
format(‘modelo_saude.bin’, binary=True)
vetor_diabetes = model[‘diabetes’]
vetor_hipertensao = model[‘hipertensão’]
vetor_insulina = model[‘insulina’]

vetor_diabetes_ajustado = vetor_diabetes +
vetor_insulina
vetor_hipertensao_ajustado = vetor_hipertensao + vetor_insulina

similaridade = calcular_similaridade(vetor_
diabetes_ajustado, vetor_hipertensao_ajustado)
print(f”Similaridade: {similaridade}”)

Utilizando o modelo hipotético model_saude.bin, o resultado
mostrado pelo código foi de 0.7036085724830627. Baseado
no cenário descrito, no código fornecido e no resultado
mostrado, a opção que melhor descreve o que está sendo
calculado e o significado do resultado é:

Question

Você é um cientista de dados trabalhando em um projeto
de pesquisa em saúde que envolve a análise de relatórios
médicos utilizando técnicas de Processamento de Linguagem Natural (PLN). Parte do seu trabalho é explorar as
relações semânticas entre diferentes condições de saúde
utilizando um modelo pré-treinado de word embeddings em
português, focado na área da saúde. Você decide investigar
a relação entre diferentes doenças e tratamentos.
Seja o seguinte código Python, que utiliza a biblioteca
gensim e um modelo hipotético de word embeddings
denominado modelo_saude.bin especializado em termos
médicos em português:
import numpy as np
from gensim.models import KeyedVectors

def calcular_similaridade(vetor_a, vetor_b):
   numerador = np.dot(vetor_a, vetor_b)
   denominador = np.linalg.norm(vetor_a) *

np.linalg.norm(vetor_b)
   similaridade = numerador / denominador
   return similaridade

mo del = Ke yed Vectors. load_ word 2vec _
format(‘modelo_saude.bin’, binary=True)
vetor_diabetes = model[‘diabetes’]
vetor_hipertensao = model[‘hipertensão’]
vetor_insulina = model[‘insulina’]

vetor_diabetes_ajustado = vetor_diabetes +
vetor_insulina
vetor_hipertensao_ajustado = vetor_hipertensao + vetor_insulina

similaridade = calcular_similaridade(vetor_
diabetes_ajustado, vetor_hipertensao_ajustado)
print(f”Similaridade: {similaridade}”)

Utilizando o modelo hipotético model_saude.bin, o resultado
mostrado pelo código foi de 0.7036085724830627. Baseado
no cenário descrito, no código fornecido e no resultado
mostrado, a opção que melhor descreve o que está sendo
calculado e o significado do resultado é: Alternativa A: a distância euclidiana entre os vetores de “diabetes” e
“hipertensão”, ambos ajustados pelo vetor de “insulina”,
sugere que, no espaço semântico do modelo utilizado,
as condições de “diabetes” e “hipertensão”, quando
consideradas no contexto do tratamento com “insulina”,
possuem uma relação semântica relativamente forte. Ou Alternativa B: a similaridade por cosseno entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de
“insulina”, sugere que, no espaço semântico do modelo
utilizado, as condições de “diabetes” e “hipertensão”,
quando consideradas no contexto do tratamento com
“insulina”, possuem uma relação semântica relativamente fraca. Ou Alternativa C: a distância euclidiana entre os vetores de “diabetes” e
“hipertensão”, ambos ajustados pelo vetor de “insulina”,
sugere que, no espaço semântico do modelo utilizado,
as condições de “diabetes” e “hipertensão”, quando
consideradas no contexto do tratamento com “insulina”,
possuem uma relação semântica relativamente fraca. Ou Alternativa D: a similaridade por cosseno entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de
“insulina”, sugere que, no espaço semântico do modelo
utilizado, as condições de “diabetes” e “hipertensão”,
quando consideradas no contexto do tratamento com
“insulina”, possuem uma relação semântica relativamente forte. Ou Alternativa E: a distância euclidiana entre os vetores de “diabetes” e
“hipertensão”, ambos ajustados pelo vetor de “insulina”,
sugere que, no espaço semântico do modelo utilizado,
as condições de “diabetes” e “hipertensão”, quando
consideradas no contexto do tratamento com “insulina”,
possuem uma relação semântica relativamente neutra.

Qconcursos · Accepted Answer

Alternativa [D] a similaridade por cosseno entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de
“insulina”, sugere que, no espaço semântico do modelo
utilizado, as condições de “diabetes” e “hipertensão”,
quando consideradas no contexto do tratamento com
“insulina”, possuem uma relação semântica relativamente forte. A alternativa correta é: D - a similaridade por cosseno entre os vetores de “diabetes” e “hipertensão”, ambos ajustados pelo vetor de “insulina”, sugere que, no espaço semântico do modelo utilizado, as condições de “diabetes” e “hipertensão”, quando consideradas no contexto do tratamento com “insulina”, possuem uma relação semântica relativamente forte.

Tema Central da Questão: A questão aborda o uso de word embeddings para explorar relações semânticas entre condições de saúde, utilizando técnicas de Processamento de Linguagem Natural (PLN) com foco na análise de similaridade semântica entre vetores ajustados.

Conceito Base: Os word embeddings são representações vetoriais de palavras que capturam significados semânticos e relações contextuais. A similaridade por cosseno é uma medida comum para avaliar a similaridade entre dois vetores, considerando o ângulo entre eles: quanto mais próximos de 1, mais similares eles são.

Justificativa da Alternativa Correta: O cálculo de similaridade implementado no código refere-se claramente à similaridade por cosseno. O valor obtido, 0.7036, indica uma relação semântica relativamente forte entre "diabetes" e "hipertensão" no contexto da "insulina", pois está mais próximo de 1 do que de 0.

Análise das Alternativas Incorretas:

A, C, E - Todas essas alternativas mencionam distância euclidiana, que não é o cálculo realizado no código. A distância euclidiana mede o comprimento do segmento de linha entre dois pontos no espaço vetorial, o que não é aplicado aqui.

B - Esta alternativa menciona uma relação semântica relativamente fraca, que não é consistente com o valor de similaridade por cosseno de 0.7036, que é considerado forte.

Estratégias de Interpretação: Ao interpretar questões desse tipo, é importante:

Identificar claramente os cálculos e operações realizados no código.
    Entender a diferença entre medidas de similaridade e distância.
    Observar os valores numéricos apresentados e relacioná-los corretamente com os conceitos discutidos.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

🚀 Mais performance?

🚀 Mais performance?

Você é um cientista de dados trabalhando em um projeto de p...

Gabarito comentado

Clique para visualizar este gabarito

Questões de assuntos semelhantes

Provas relacionadas