O pré-processamento de textos é uma etapa importante¬¬no pr...
Com base nas técnicas de pré-processamento citadas, como ficará o texto original após a aplicação de tokenização e remoção de stop words?
- Gabarito Comentado (1)
- Aulas (12)
- Comentários (3)
- Estatísticas
- Cadernos
- Criar anotações
- Notificar Erro
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: B
1. Tema Central da Questão
Esta questão aborda técnicas de pré-processamento de textos na área de Inteligência Artificial e Automação, especialmente a tokenização e a remoção de stop words. Entender essas técnicas é essencial para concursos porque são etapas fundamentais em tarefas como análise de sentimentos, classificação de textos e sistemas de busca.
2. Resumo Teórico
Tokenização consiste em dividir um texto em unidades menores chamadas tokens (geralmente palavras).
Stop Words são palavras muito frequentes e pouco informativas, como: "o", "a", "de", "então", "após". Removê-las ajuda os algoritmos a focar nos termos mais relevantes.
Essas técnicas são amplamente descritas em guias como o livro "Speech and Language Processing" (Jurafsky & Martin) e manuais de processamento de linguagem natural.
3. Justificativa da Alternativa Correta
Após tokenização, o texto é separado em palavras individuais. Em seguida, removendo as stop words, ficam apenas os termos significativos:
[ "carro", "sujo", "decidiu", "limpar", "carro", "longo", "dia", "trabalho", "carro", "brilhante", "limpeza" ]
Observe que palavras repetidas permanecem, e só as irrelevantes são excluídas. Assim, a alternativa B apresenta corretamente o resultado desse processo.
4. Análise das Alternativas Incorretas
- A – Removeu palavras relevantes ("longo", "dia", etc.) e generalizou ("decidir" ao invés de "decidiu", "limpeza" ao invés de "limpar"). Isso seria lematização ou estemização, não pedido na questão.
- C – Incluiu a palavra "após", que é tipicamente uma stop word e deveria ser removida.
- D – Omitiu vários termos relevantes e repetidos, não reflete corretamente o processo de tokenização e remoção de stop words.
- E – Removeu termos que não são stop words, além de não manter todas as ocorrências das palavras.
5. Estratégias de Interpretação
Ao ler a questão, foque no que foi explicitamente solicitado: apenas tokenização e remoção de stop words. Ignore alterações de tempo verbal, redução para radicais ou agrupamento de sinônimos, pois essas técnicas não foram pedidas. Preste atenção em alternativas que adicionam ou omitem palavras sem justificativa no enunciado.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
Explicação passo a passo:
Vamos aplicar as duas técnicas de pré-processamento citadas:
Quebra o texto em palavras (tokens):
Texto original:
"O carro estava muito sujo, então ele decidiu limpar o carro depois de um longo dia de trabalho. O carro ficou brilhante após a limpeza."
Tokenizado (com pontuação removida e tudo em minúsculo):
["o", "carro", "estava", "muito", "sujo", "então", "ele", "decidiu", "limpar", "o", "carro", "depois", "de", "um", "longo", "dia", "de", "trabalho", "o", "carro", "ficou", "brilhante", "após", "a", "limpeza"]
Remove palavras comuns que não agregam valor semântico (como: "o", "de", "a", "ele", "então", etc).
Aplicando a remoção de stop words:
Stop words removidas: "o", "estava", "muito", "então", "ele", "depois", "de", "um", "de", "ficou", "após", "a"
Lematização e estemização não foram aplicadas, então palavras como "decidiu", "limpar", "limpeza" aparecem na forma original.
Isso ai é loucura kkk
Um ponto interessante é que os verbos ser, estar e ter são muito comuns no português, ou seja, fazem parte da maioria das listas de stop words para nosso idioma. Portanto o verbo "estava" foi considerado stop-word.
Links de listas de stop-words em pt_BR:
- https://github.com/stopwords-iso/stopwords-pt/blob/master/stopwords-pt.txt
- https://github.com/thiagoscouto/stopwords_ptbr
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo