Para a realização de análises preditivas e de agrupamento tí...

Com base no mesmo assunto

Ano: 2024 Banca: FGV Órgão: Prefeitura de Cuiabá - MT Prova: FGV - 2024 - Prefeitura de Cuiabá - MT - Auditor Fiscal Tributário da Receita Municipal - Tecnologia da Informação (Tarde) |

Q3158084 Engenharia de Software

Para a realização de análises preditivas e de agrupamento típicas de mineração de textos, os dados não estruturados textuais devem ser preparados antes de serem analisados. Este processo consiste em quatro etapas: análise lexical, eliminação de termos irrelevantes, redução da palavra ao seus radical e construção de uma representação vetorial.
A etapa de análise lexical consiste na

geração de uma lista de termos obtidas do texto original, a partir da eliminação da pontuação e de outros caracteres que são desnecessários no contexto em que o texto será analisado.

eliminação de artigos, pronomes, numerais, conjunções, advérbios e palavras de outras classes gramaticais do texto que são irrelevantes no processo de mineração de dados.

uniformização dos termos a partir da remoção dos sufixos e prefixos das palavras.

atribuição de pesos a cada termo presente no dicionário de termos.

associação de cada termo do texto a um radical da biblioteca do corpus ao qual o documento está contido.

Incorreta. Gabarito oficial da banca:

Veja esse conteúdo explicado passo a passo em nossos cursos. Buscar curso

teste

Parabéns! Você acertou!

Mandou bem! Revise esse tema nos nossos cursos. Buscar curso

teste

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Tema central da questão:

A questão aborda o processo de preparação de dados textuais não estruturados para análises preditivas e de agrupamento, comumente usadas em mineração de textos. Compreender esta questão requer familiaridade com o pré-processamento de texto, que é crucial para transformar dados textuais brutos em um formato adequado para análise.

Resumo teórico:

O pré-processamento de texto envolve várias etapas, como a análise lexical, que consiste na transformação do texto bruto em uma lista de palavras ou tokens. Essa etapa é essencial porque elimina elementos que não são palavras, como pontuação e caracteres especiais. Segundo fontes como o livro "Introduction to Information Retrieval" de Manning et al., esta é uma prática comum em processamento de linguagem natural.

Justificativa da alternativa correta (A):

A alternativa A é a correta porque descreve precisamente a análise lexical. Este processo envolve a geração de uma lista de termos a partir da eliminação de pontuação e caracteres desnecessários, preparando o texto para as etapas subsequentes de análise.

Análise das alternativas incorretas:

B: Descreve a eliminação de termos irrelevantes, como artigos e pronomes, que é uma etapa posterior à análise lexical e é conhecida como remoção de stopwords.
C: Refere-se à lemmatização ou stemming, que é a redução de palavras aos seus radicais, um processo que ocorre após a análise lexical.
D: Atribuir pesos a termos é parte da vetorização, que ocorre depois que o texto foi completamente processado e tokenizado.
E: Refere-se à lemmatização, mas de forma incorreta, pois a associação de termos a um radical não é limitada ao uso de uma biblioteca do corpus.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Gab. A

O processo de preparação dos dados textuais envolve as seguintes etapas:

Análise Lexical ==> Consiste na geração de uma lista de termos a partir do texto original, eliminando pontuação e outros caracteres desnecessários. O objetivo é transformar o texto bruto em unidades de análise, chamadas de termos ou tokens;

Eliminação de termos irrelevantes ==> Nesta etapa, palavras que não contribuem significativamente para a análise, como artigos, pronomes, conjunções e advérbios, são removidas do texto.

Redução da palavra ao seu radical (Stemming) ==> Consiste na remoção de sufixos e prefixos das palavras, reduzindo-as à sua forma raiz ou radical. Isso ajuda a uniformizar as palavras para melhorar a análise.

Construção de uma representação vetorial ==> Após a preparação, os textos são convertidos em uma forma matemática, geralmente usando métodos como a matriz termo-documento ou técnicas como TF-IDF (Term Frequency-Inverse Document Frequency), que representam o peso e a importância de cada termo no contexto do texto. K-Means

Gabarito: A) geração de uma lista de termos obtidas do texto original, a partir da eliminação da pontuação e de outros caracteres que são desnecessários no contexto em que o texto será analisado.

Resumo do Resumo:

A análise lexical (ou tokenização) é a primeira etapa do pré-processamento de textos em mineração de dados. Ela envolve:

Dividir o texto em unidades menores (tokens ou termos).
Remover pontuação, caracteres especiais e outros elementos irrelevantes para a análise.
Gerar uma lista limpa de termos a partir do texto bruto.

Por que as outras alternativas estão erradas?

B): Descreve a etapa de eliminação de stop words (termos irrelevantes), não a análise lexical.
C): Refere-se à redução radical (stemming) ou lematização, que ocorre após a tokenização.
D): Corresponde à ponderação de termos (ex.: TF-IDF), parte da construção da representação vetorial.
E): É a lematização (associar termos a seus radicais canônicos), que vem depois da tokenização.

By Futuro Dev Estável

Outros:

Stemming: Remove prefixo e sufixo

Lematization: Reduz a palavra ao seu lema (forma mais primitiva), verbos no infinitivo

Postagging: Identifica classes gramaticais

Named Entity Recognition: Conhece o sentido, pessoas e datas

StopWold Removal: Remove palavras (Em, e, Da)

Tokemization: Quebra a frase em palavras

(tec)

A) CORRETA: Geração de uma lista de termos... eliminação da pontuação...

(...)

Isso é a Análise Lexical (também chamada de tokenização). É o "primeiro corte": você separa o texto em palavras individuais e limpa o que não é palavra, como pontos, vírgulas e símbolos.

(...)

Explicação das Alternativas Incorretas (Distratores)

(...)

B) Eliminação de artigos, pronomes, numerais...

(...)

Essa é a etapa de Eliminação de termos irrelevantes (Stopwords). São palavras que aparecem muito mas não trazem significado para a análise (ex: "o", "a", "de").

(...)

C) Uniformização dos termos a partir da remoção dos sufixos e prefixos...

(...)

Essa é a técnica de Stemming (Redução ao radical). O objetivo é transformar "estudando", "estudante" e "estudou" apenas em "estud", para que o sistema entenda que tratam do mesmo assunto.

(...)

D) Atribuição de pesos a cada termo...

(...)

Isso faz parte da Construção da representação vetorial. Aqui o computador transforma as palavras em números e pesos (como a técnica TF-IDF) para conseguir fazer cálculos matemáticos com o texto.

(..

E) Associação de cada termo do texto a um radical da biblioteca...

(...)

Isso se assemelha à Lemmatização. Diferente do radical puro (item C), aqui você busca o sentido gramatical correto da palavra (o "lema") em um dicionário.

(...)

Fonte: Gemini

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo

🚀 Mais performance?

🚀 Mais performance?

Para a realização de análises preditivas e de agrupamento tí...

Gabarito comentado

Clique para visualizar este gabarito

Comentários

Clique para visualizar este comentário

Questões de assuntos semelhantes

Provas relacionadas