O pré-processamento de textos é uma etapa importante¬¬no
processo de análise e classificação de dados textuais. Ele visa
transformar textos brutos em um formato adequado para ser
utilizado em algoritmos de aprendizado de máquina. Entre as
técnicas mais comuns no pré-processamento de textos, estão
a remoção de stop words, a tokenização, a lematização e o
estemização. Considere o texto original a seguir:
"O carro estava muito sujo, então ele decidiu limpar o carro
depois de um longo dia de trabalho. O carro ficou brilhante
após a limpeza."Com base nas técnicas de pré-processamento citadas, como
ficará o texto original após a aplicação de tokenização e
remoção de stop words?

Question

O pré-processamento de textos é uma etapa importante¬¬no
processo de análise e classificação de dados textuais. Ele visa
transformar textos brutos em um formato adequado para ser
utilizado em algoritmos de aprendizado de máquina. Entre as
técnicas mais comuns no pré-processamento de textos, estão
a remoção de stop words, a tokenização, a lematização e o
estemização. Considere o texto original a seguir:
"O carro estava muito sujo, então ele decidiu limpar o carro
depois de um longo dia de trabalho. O carro ficou brilhante
após a limpeza."Com base nas técnicas de pré-processamento citadas, como
ficará o texto original após a aplicação de tokenização e
remoção de stop words? Alternativa A: ["carro", "sujo", "decidir", "limpeza", "brilhante"] Ou Alternativa B: ["carro", "sujo", "decidiu", "limpar", "carro", "longo", "dia",
"trabalho", "carro", "brilhante", "limpeza"] Ou Alternativa C: ["carro", "sujo", "decidiu", "limpar", "carro", "longo", "dia",
"trabalho", "carro", "brilhante", "após", "limpeza"] Ou Alternativa D: ["carro", "limpar", "brilhante", "carro"] Ou Alternativa E: ["carro", "limpeza", "brilhante", "decidiu", "trabalho"]

Qconcursos · Accepted Answer

Alternativa [B] ["carro", "sujo", "decidiu", "limpar", "carro", "longo", "dia",
"trabalho", "carro", "brilhante", "limpeza"] Alternativa correta: B

1. Tema Central da Questão
Esta questão aborda técnicas de pré-processamento de textos na área de Inteligência Artificial e Automação, especialmente a tokenização e a remoção de stop words. Entender essas técnicas é essencial para concursos porque são etapas fundamentais em tarefas como análise de sentimentos, classificação de textos e sistemas de busca.

2. Resumo Teórico

Tokenização consiste em dividir um texto em unidades menores chamadas tokens (geralmente palavras). 
Stop Words são palavras muito frequentes e pouco informativas, como: "o", "a", "de", "então", "após". Removê-las ajuda os algoritmos a focar nos termos mais relevantes.
Essas técnicas são amplamente descritas em guias como o livro "Speech and Language Processing" (Jurafsky & Martin) e manuais de processamento de linguagem natural.

3. Justificativa da Alternativa Correta

Após tokenização, o texto é separado em palavras individuais. Em seguida, removendo as stop words, ficam apenas os termos significativos:
[ "carro", "sujo", "decidiu", "limpar", "carro", "longo", "dia", "trabalho", "carro", "brilhante", "limpeza" ]
Observe que palavras repetidas permanecem, e só as irrelevantes são excluídas. Assim, a alternativa B apresenta corretamente o resultado desse processo.

4. Análise das Alternativas Incorretas

A – Removeu palavras relevantes ("longo", "dia", etc.) e generalizou ("decidir" ao invés de "decidiu", "limpeza" ao invés de "limpar"). Isso seria lematização ou estemização, não pedido na questão.
  C – Incluiu a palavra "após", que é tipicamente uma stop word e deveria ser removida.
  D – Omitiu vários termos relevantes e repetidos, não reflete corretamente o processo de tokenização e remoção de stop words.
  E – Removeu termos que não são stop words, além de não manter todas as ocorrências das palavras.

5. Estratégias de Interpretação

Ao ler a questão, foque no que foi explicitamente solicitado: apenas tokenização e remoção de stop words. Ignore alterações de tempo verbal, redução para radicais ou agrupamento de sinônimos, pois essas técnicas não foram pedidas. Preste atenção em alternativas que adicionam ou omitem palavras sem justificativa no enunciado.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

🚀 Mais performance?

🚀 Mais performance?

O pré-processamento de textos é uma etapa importante¬¬no pr...

Gabarito comentado

Clique para visualizar este gabarito

Comentários

Clique para visualizar este comentário

Resumos relacionados

Editor de Textos: Word e BrOffice.org Writer para concursos

Entenda o que é Extensão de Arquivo em Noções de Informática

Questões de assuntos semelhantes

Provas relacionadas