No contexto do Processamento de Linguagem Natural, assinale ...
A stemização (stemming) e a lematização (lemmatization) são técnicas de processamento de texto usadas para reduzir palavras à sua forma base ou raiz, a fim de simplificar o texto e facilitar a análise textual em tarefas como processamento de linguagem natural (PLN) e recuperação de informações. No entanto, essas técnicas têm diferenças importantes:
- Stemização (Stemming):
- A stemização envolve a remoção de sufixos e prefixos de uma palavra para obter a forma raiz ou stem.
- O objetivo principal da stemização é reduzir as palavras a uma forma truncada que pode não ser uma palavra válida no idioma, mas ainda é a forma raiz da palavra.
- A stemização é um processo mais simples e geralmente usa regras heurísticas para cortar os sufixos das palavras.
- Exemplo: "corridas" é reduzido a "corr", e "correndo" é reduzido a "corr".
- Lematização (Lemmatization):
- A lematização envolve a redução de palavras a sua forma canônica ou lema, que é uma palavra válida no idioma.
- O objetivo da lematização é transformar palavras em sua forma mais básica, considerando sua classe gramatical e significado.
- A lematização é um processo mais complexo e requer conhecimento de dicionários e regras gramaticais.
- Exemplo: "corridas" é reduzido a "corrida", e "correndo" é reduzido a "correr".
Em resumo, a stemização tende a ser mais agressiva na redução das palavras, gerando raízes que podem não ser palavras reais, enquanto a lematização busca produzir lemas, que são formas linguísticas válidas e reconhecidas. A escolha entre stemização e lematização depende do contexto da tarefa de processamento de texto e dos objetivos específicos de análise de linguagem natural.
O gabarito correto é a letra A. A stemização, ou stemming, tem como principal objetivo reduzir palavras à sua forma radical, chamada de stem, removendo os afixos, prefixos e sufixos mais comuns da palavra, para simplificar o processamento de texto e reduzir a dimensionalidade do espaço de recursos. Por exemplo, as palavras "running", "runs" e "ran" podem todas ser reduzidas ao seu stem "run".
Por outro lado, a lematização é um processo mais sofisticado e leva em conta a análise morfológica das palavras. O objetivo é reduzir a palavra à sua forma de dicionário, o lema. A lematização busca a forma canônica de uma palavra com base em seu uso real, considerando o contexto e a categoria gramatical, o que preserva o significado original da palavra. Ao contrário da stemização, um lematizador precisa de um dicionário completo de palavras e suas formas flexionadas, além das regras gramaticais para determinar o lema de uma palavra. Assim, as palavras "better" e "best" seriam reduzidas a "good" no caso da lematização, algo que o stemming não faria.
As alternativas B, C, D, e E contêm descrições incorretas dos processos de stemming e lematização, tanto sobre seus objetivos quanto em relação aos métodos utilizados. Portanto, a alternativa A é a única que apresenta a distinção correta entre essas duas técnicas usadas no processamento de linguagem natural.