Um modelo de linguagem baseado em unigramas foi treinado em...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: C
1. Tema central:
A questão trata de modelos de linguagem baseados em unigramas e a métrica de perplexidade. Saber interpretar esses conceitos é essencial para provas de engenharia de software, especialmente no tema de inteligência artificial e processamento de linguagem natural.
2. Resumo teórico:
Um modelo de unigramas calcula a probabilidade das palavras individualmente, ignorando a ordem. Ou seja, ele vê cada palavra de forma isolada. Já a perplexidade mede o quão bem o modelo prediz um texto: quanto menor a perplexidade, maior a previsibilidade ou familiaridade das palavras para o modelo. A fórmula básica da perplexidade envolve o inverso da probabilidade geométrica das palavras na frase.
3. Justificativa da alternativa correta (C):
A frase "qual sanduíche Maria comeu" inclui a palavra "qual", que geralmente é menos frequente do que palavras como "o" ou "sanduíche". Modelos de unigramas atribuem probabilidades menores para palavras raras, o que aumenta a perplexidade. Portanto, a frase com palavras menos comuns terá perplexidade maior. Fontes: Jurafsky & Martin – Speech and Language Processing.
4. Análise das alternativas incorretas:
A. Incorreta. O modelo de unigramas ignora a ordem, mas a perplexidade depende das probabilidades das palavras. Se uma frase usa palavras mais raras, a perplexidade aumenta.
B. Incorreta. A presença da palavra "o" não aumenta a perplexidade — ela normalmente é comum no português, o que reduz a perplexidade.
D. Incorreta. Embora frases com palavras mais frequentes tendam a ter perplexidade menor, aqui a justificativa se confunde, pois não destaca a diferença entre as frases e o impacto de palavras incomuns como "qual".
E. Incorreta. O modelo de unigramas não contextualiza palavras; ele apenas considera suas probabilidades isoladamente, então "qual" não melhora a previsibilidade.
5. Estratégia de interpretação:
Leia atentamente o enunciado, identifique se o modelo considera dependências (unigrama = independente). Procure palavras que indiquem frequência e lembre-se: palavras raras aumentam a perplexidade!
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Num modelo unigramas, a probabilidade de uma frase é o produto das probabilidades individuais das palavras, ignorando a ordem. A perplexidade é inversamente relacionada a essa probabilidade média: quanto maior a probabilidade da sequência, menor a perplexidade
Comparando as frases:
- “Maria comeu o sanduíche” contém “o”, artigo extremamente frequente em português ⇒ P(o) alta.
- “qual sanduíche Maria comeu” contém “qual”, bem menos frequente ⇒ P(qual) baixa.
Logo, a frase com “o” tem probabilidade maior (produto maior) e, portanto, perplexidade menor. A frase com "qual" tem probabilidade menor e, portanto, perplexidade maior.
Tendo isso em vista, pra mim tanto a C quanto a D estariam corretas.
Jaqueline, não tem como a C e D estarem corretas. “Maria comeu "O" sanduíche”: O artigo "O" tem alta probabilide, consequentemente essa frase tem perplexidade menor. As condições são inversamente proporcionais.
Concordo com o Francisco, a letra D está errada pois a presença do artigo "o" aumenta consideravelmente a probabilidade da próxima palavra ser um substantivo. Logo, sabendo que a perplexidade mede justamente o quão "surpreso" o modelo fica com a próxima palavra, então a perplexidade será menor.
Gab C)
"o" é uma stopword, não tem valor semântico extra.
ademais como as duas palavras são praticamente iguais,
a palavra qual torna está opção com um numero maior.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo