Uma equipe de Engenharia de Computação está pré-processando
textos de relatórios de falhas de software para análise automática
de tendências em processamento de linguagem natural. O
primeiro passo no pré-processamento é dividir a frase em
unidades menores para que o modelo possa analisá-las
individualmente.
O processo inicial de PLN que consiste em dividir uma sequência
de texto em unidades menores, como palavras, subpalavras ou
sentenças é o(a)

Question

Uma equipe de Engenharia de Computação está pré-processando
textos de relatórios de falhas de software para análise automática
de tendências em processamento de linguagem natural. O
primeiro passo no pré-processamento é dividir a frase em
unidades menores para que o modelo possa analisá-las
individualmente.
O processo inicial de PLN que consiste em dividir uma sequência
de texto em unidades menores, como palavras, subpalavras ou
sentenças é o(a)  Alternativa A: Stemming. Ou Alternativa B: Lemmatization.  Ou Alternativa C: Normalização. Ou Alternativa D: Classificação de Texto. Ou Alternativa E: Tokenização.

Qconcursos · Accepted Answer

Alternativa [E] Tokenização. Gabarito: EFundamento decisivo: O ponto decisivo foi a descrição da operação inicial de PLN que separa o texto em unidades menores, como palavras, subpalavras ou sentenças. Esse conceito corresponde à tokenização, o que confirma a alternativa E.Tema central: Tokenização em PLNAnálise das alternativasAErradaStemming reduz palavras a radicais aproximados por remoção ou redução de terminações. Isso atua sobre a forma das palavras, não sobre a divisão da sequência textual em unidades menores.BErradaLemmatization converte palavras à sua forma canônica, o lema. É uma operação de redução morfológica e não o processo inicial de segmentação textual descrito no enunciado.CErradaNormalização padroniza o texto, como caixa, acentuação ou variantes, mas é um termo mais amplo. O enunciado pede o nome específico da operação de dividir o texto em palavras, subpalavras ou sentenças, e isso não é normalização.DErradaClassificação de texto é tarefa de análise ou modelagem para atribuir rótulos a documentos. Não é etapa inicial de pré-processamento voltada a dividir o texto.ECertaA alternativa E está correta porque tokenização é o nome técnico da etapa de segmentação do texto em unidades menores analisáveis individualmente. Esse é o critério pedido: identificar a operação inicial de pré-processamento que separa o texto em palavras, subpalavras ou sentenças.Pegadinha da questãoA confusão real era trocar tokenização por normalização, stemming ou lemmatization só porque todas podem aparecer no pré-processamento; porém apenas tokenização nomeia a segmentação inicial do texto. Outra armadilha era confundir pré-processamento com tarefa posterior de análise, como classificação de texto.Dica para questões semelhantesSe o enunciado falar em dividir texto em palavras, subpalavras ou sentenças, o nome técnico da operação é tokenização.Stemming e lemmatization atuam sobre palavras já identificadas; não servem para nomear a segmentação inicial da sequência textual.Quando a banca pedir o nome exato da operação, descarte termos amplos como normalização se a descrição for especificamente de segmentação.Separe etapas de pré-processamento de tarefas de análise final: classificar texto não é o mesmo que preparar o texto.

🚀 Mais performance?

🚀 Mais performance?

Uma equipe de Engenharia de Computação está pré-processando ...

Gabarito comentado

Gabarito: E

Clique para visualizar este gabarito

Comentários

Clique para visualizar este comentário

Questões de assuntos semelhantes

Provas relacionadas