Uma equipe de Engenharia de Computação está pré-processando ...

Próximas questões
Com base no mesmo assunto
Q3882851 Engenharia de Software
Uma equipe de Engenharia de Computação está pré-processando textos de relatórios de falhas de software para análise automática de tendências em processamento de linguagem natural. O primeiro passo no pré-processamento é dividir a frase em unidades menores para que o modelo possa analisá-las individualmente.

O processo inicial de PLN que consiste em dividir uma sequência de texto em unidades menores, como palavras, subpalavras ou sentenças é o(a) 
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Gabarito: E

Fundamento decisivo: O ponto decisivo foi a descrição da operação inicial de PLN que separa o texto em unidades menores, como palavras, subpalavras ou sentenças. Esse conceito corresponde à tokenização, o que confirma a alternativa E.

Tema central: Tokenização em PLN
Análise das alternativas
A
Errada
Stemming reduz palavras a radicais aproximados por remoção ou redução de terminações. Isso atua sobre a forma das palavras, não sobre a divisão da sequência textual em unidades menores.
B
Errada
Lemmatization converte palavras à sua forma canônica, o lema. É uma operação de redução morfológica e não o processo inicial de segmentação textual descrito no enunciado.
C
Errada
Normalização padroniza o texto, como caixa, acentuação ou variantes, mas é um termo mais amplo. O enunciado pede o nome específico da operação de dividir o texto em palavras, subpalavras ou sentenças, e isso não é normalização.
D
Errada
Classificação de texto é tarefa de análise ou modelagem para atribuir rótulos a documentos. Não é etapa inicial de pré-processamento voltada a dividir o texto.
E
Certa
A alternativa E está correta porque tokenização é o nome técnico da etapa de segmentação do texto em unidades menores analisáveis individualmente. Esse é o critério pedido: identificar a operação inicial de pré-processamento que separa o texto em palavras, subpalavras ou sentenças.
Pegadinha da questão
A confusão real era trocar tokenização por normalização, stemming ou lemmatization só porque todas podem aparecer no pré-processamento; porém apenas tokenização nomeia a segmentação inicial do texto. Outra armadilha era confundir pré-processamento com tarefa posterior de análise, como classificação de texto.
Dica para questões semelhantes
  • Se o enunciado falar em dividir texto em palavras, subpalavras ou sentenças, o nome técnico da operação é tokenização.
  • Stemming e lemmatization atuam sobre palavras já identificadas; não servem para nomear a segmentação inicial da sequência textual.
  • Quando a banca pedir o nome exato da operação, descarte termos amplos como normalização se a descrição for especificamente de segmentação.
  • Separe etapas de pré-processamento de tarefas de análise final: classificar texto não é o mesmo que preparar o texto.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

letra e)

(FIOCRUZ/2024/ADAPTADO) Trata-se de dividir o texto em unidades menores, como palavras ou partes de palavras, tranformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN - Tokenização

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo