O pré-processamento de textos é uma etapa importante¬¬no pr...

Próximas questões
Com base no mesmo assunto
Ano: 2025 Banca: FUVEST Órgão: USP Prova: FUVEST - 2025 - USP - Analista de Sistemas |
Q3509631 Noções de Informática
O pré-processamento de textos é uma etapa importante¬¬no processo de análise e classificação de dados textuais. Ele visa transformar textos brutos em um formato adequado para ser utilizado em algoritmos de aprendizado de máquina. Entre as técnicas mais comuns no pré-processamento de textos, estão a remoção de stop words, a tokenização, a lematização e o estemização. Considere o texto original a seguir: "O carro estava muito sujo, então ele decidiu limpar o carro depois de um longo dia de trabalho. O carro ficou brilhante após a limpeza."
Com base nas técnicas de pré-processamento citadas, como ficará o texto original após a aplicação de tokenização e remoção de stop words?
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: B

1. Tema Central da Questão

Esta questão aborda técnicas de pré-processamento de textos na área de Inteligência Artificial e Automação, especialmente a tokenização e a remoção de stop words. Entender essas técnicas é essencial para concursos porque são etapas fundamentais em tarefas como análise de sentimentos, classificação de textos e sistemas de busca.

2. Resumo Teórico

Tokenização consiste em dividir um texto em unidades menores chamadas tokens (geralmente palavras).
Stop Words são palavras muito frequentes e pouco informativas, como: "o", "a", "de", "então", "após". Removê-las ajuda os algoritmos a focar nos termos mais relevantes.
Essas técnicas são amplamente descritas em guias como o livro "Speech and Language Processing" (Jurafsky & Martin) e manuais de processamento de linguagem natural.

3. Justificativa da Alternativa Correta

Após tokenização, o texto é separado em palavras individuais. Em seguida, removendo as stop words, ficam apenas os termos significativos:
[ "carro", "sujo", "decidiu", "limpar", "carro", "longo", "dia", "trabalho", "carro", "brilhante", "limpeza" ]
Observe que palavras repetidas permanecem, e só as irrelevantes são excluídas. Assim, a alternativa B apresenta corretamente o resultado desse processo.

4. Análise das Alternativas Incorretas

  • A – Removeu palavras relevantes ("longo", "dia", etc.) e generalizou ("decidir" ao invés de "decidiu", "limpeza" ao invés de "limpar"). Isso seria lematização ou estemização, não pedido na questão.
  • C – Incluiu a palavra "após", que é tipicamente uma stop word e deveria ser removida.
  • D – Omitiu vários termos relevantes e repetidos, não reflete corretamente o processo de tokenização e remoção de stop words.
  • E – Removeu termos que não são stop words, além de não manter todas as ocorrências das palavras.

5. Estratégias de Interpretação

Ao ler a questão, foque no que foi explicitamente solicitado: apenas tokenização e remoção de stop words. Ignore alterações de tempo verbal, redução para radicais ou agrupamento de sinônimos, pois essas técnicas não foram pedidas. Preste atenção em alternativas que adicionam ou omitem palavras sem justificativa no enunciado.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Explicação passo a passo:

Vamos aplicar as duas técnicas de pré-processamento citadas:

Quebra o texto em palavras (tokens):

Texto original:

"O carro estava muito sujo, então ele decidiu limpar o carro depois de um longo dia de trabalho. O carro ficou brilhante após a limpeza."

Tokenizado (com pontuação removida e tudo em minúsculo):

["o", "carro", "estava", "muito", "sujo", "então", "ele", "decidiu", "limpar", "o", "carro", "depois", "de", "um", "longo", "dia", "de", "trabalho", "o", "carro", "ficou", "brilhante", "após", "a", "limpeza"]

Remove palavras comuns que não agregam valor semântico (como: "o", "de", "a", "ele", "então", etc).

Aplicando a remoção de stop words:

Stop words removidas: "o", "estava", "muito", "então", "ele", "depois", "de", "um", "de", "ficou", "após", "a"

Lematização e estemização não foram aplicadas, então palavras como "decidiu", "limpar", "limpeza" aparecem na forma original.

Isso ai é loucura kkk

Um ponto interessante é que os verbos ser, estar e ter são muito comuns no português, ou seja, fazem parte da maioria das listas de stop words para nosso idioma. Portanto o verbo "estava" foi considerado stop-word.

Links de listas de stop-words em pt_BR:

  • https://github.com/stopwords-iso/stopwords-pt/blob/master/stopwords-pt.txt
  • https://github.com/thiagoscouto/stopwords_ptbr

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo