Um modelo de linguagem baseado em unigramas foi treinado em...

Próximas questões
Com base no mesmo assunto
Ano: 2025 Banca: FUVEST Órgão: USP Prova: FUVEST - 2025 - USP - Analista de Sistemas |
Q3509630 Engenharia de Software
Um modelo de linguagem baseado em unigramas foi treinado em um grande volume de textos em português. Esse modelo atribui probabilidades a palavras individuais, sem levar em consideração a ordem em que aparecem na sentença. Sabendo-se que a perplexidade é uma métrica que mede quão bem um modelo de linguagem prediz um texto, assinale a alternativa que melhor representa a perplexidade do modelo nas frases "qual sanduíche Maria comeu" e "Maria comeu o sanduíche". 
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: C

1. Tema central:

A questão trata de modelos de linguagem baseados em unigramas e a métrica de perplexidade. Saber interpretar esses conceitos é essencial para provas de engenharia de software, especialmente no tema de inteligência artificial e processamento de linguagem natural.

2. Resumo teórico:

Um modelo de unigramas calcula a probabilidade das palavras individualmente, ignorando a ordem. Ou seja, ele vê cada palavra de forma isolada. Já a perplexidade mede o quão bem o modelo prediz um texto: quanto menor a perplexidade, maior a previsibilidade ou familiaridade das palavras para o modelo. A fórmula básica da perplexidade envolve o inverso da probabilidade geométrica das palavras na frase.

3. Justificativa da alternativa correta (C):

A frase "qual sanduíche Maria comeu" inclui a palavra "qual", que geralmente é menos frequente do que palavras como "o" ou "sanduíche". Modelos de unigramas atribuem probabilidades menores para palavras raras, o que aumenta a perplexidade. Portanto, a frase com palavras menos comuns terá perplexidade maior. Fontes: Jurafsky & Martin – Speech and Language Processing.

4. Análise das alternativas incorretas:

A. Incorreta. O modelo de unigramas ignora a ordem, mas a perplexidade depende das probabilidades das palavras. Se uma frase usa palavras mais raras, a perplexidade aumenta.

B. Incorreta. A presença da palavra "o" não aumenta a perplexidade — ela normalmente é comum no português, o que reduz a perplexidade.

D. Incorreta. Embora frases com palavras mais frequentes tendam a ter perplexidade menor, aqui a justificativa se confunde, pois não destaca a diferença entre as frases e o impacto de palavras incomuns como "qual".

E. Incorreta. O modelo de unigramas não contextualiza palavras; ele apenas considera suas probabilidades isoladamente, então "qual" não melhora a previsibilidade.

5. Estratégia de interpretação:

Leia atentamente o enunciado, identifique se o modelo considera dependências (unigrama = independente). Procure palavras que indiquem frequência e lembre-se: palavras raras aumentam a perplexidade!

Gostou do comentário? Deixe sua avaliação aqui embaixo!

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Num modelo unigramas, a probabilidade de uma frase é o produto das probabilidades individuais das palavras, ignorando a ordem. A perplexidade é inversamente relacionada a essa probabilidade média: quanto maior a probabilidade da sequência, menor a perplexidade

Comparando as frases:

  • “Maria comeu o sanduíche” contém “o”, artigo extremamente frequente em português ⇒ P(o) alta.
  • qual sanduíche Maria comeu” contém “qual”, bem menos frequente ⇒ P(qual) baixa.

Logo, a frase com “o” tem probabilidade maior (produto maior) e, portanto, perplexidade menor. A frase com "qual" tem probabilidade menor e, portanto, perplexidade maior.

Tendo isso em vista, pra mim tanto a C quanto a D estariam corretas.

Jaqueline, não tem como a C e D estarem corretas. “Maria comeu "O" sanduíche”: O artigo "O" tem alta probabilide, consequentemente essa frase tem perplexidade menor. As condições são inversamente proporcionais.

Concordo com o Francisco, a letra D está errada pois a presença do artigo "o" aumenta consideravelmente a probabilidade da próxima palavra ser um substantivo. Logo, sabendo que a perplexidade mede justamente o quão "surpreso" o modelo fica com a próxima palavra, então a perplexidade será menor.

Gab C)

"o" é uma stopword, não tem valor semântico extra.

ademais como as duas palavras são praticamente iguais,

a palavra qual torna está opção com um numero maior.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo