O Processamento de Linguagem Natural (PLN) busca melhorar a...

Próximas questões
Com base no mesmo assunto
Q3331511 Noções de Informática
O Processamento de Linguagem Natural (PLN) busca melhorar a capacidade das máquinas de entender e interagir com a linguagem humana de forma natural e semanticamente adequada. Ao longo dos anos, a evolução dos modelos de Machine Learning tem desempenhado um papel fundamental nesse processo, permitindo avanços significativos em tarefas como tradução automática, análise de sentimentos e assistentes virtuais. Esses modelos dependem de uma série de técnicas de pré-processamento para transformar texto bruto em formas que possam ser eficientemente analisadas e compreendidas. Numere a 2ª coluna pela primeira, considerando as técnicas e as respectivas definições.

COLUNA 1
(1) Tokenização, (2) POS Tagging, (3) Stemização, (4) Lematização e (5) Chunking.
COLUNA 2
( ) Técnica que transforma uma palavra para sua forma de dicionário, considerando o contexto, a classe gramatical e outras características linguísticas.

( ) Trata de dividir o texto em unidades menores, como palavras ou partes de palavras, transformando o texto bruto e preparando-o para ser manipulado por algoritmos de PLN.

( ) Refere-se a reduzir as palavras para suas formas radicais, facilitando a análise de padrões comuns em diferentes variações da mesma palavra.

( ) Técnica de atribuir a cada palavra em um texto a sua classe morfossintática, como substantivos, verbos, adjetivos, etc.

( ) Trata de dividir um texto em segmentos mais curtos, como conjuntos de palavras ou seções de um texto, que serão tratados separadamente em processos posteriores como, por exemplo, vetorização.


A sequência correta, de cima para baixo, é:
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Gabarito: E

Fundamento decisivo: O ponto decisivo era a identificação correta das definições de lematização, tokenização, stemização, POS Tagging e chunking no enunciado, o que conduz à sequência 4-1-3-2-5 e, portanto, à alternativa E.

Tema central: Técnicas de PLN
Análise das alternativas
A
Errada
Incorreta porque coloca 3 na primeira definição. O enunciado descreve “forma de dicionário considerando contexto e classe gramatical”, o que caracteriza lematização, item 4, e não stemização, item 3.
B
Errada
Incorreta porque, na segunda posição, traz 2. A definição “dividir o texto em unidades menores, como palavras ou partes de palavras” corresponde à tokenização, item 1, e não a POS Tagging, item 2.
C
Errada
Incorreta porque começa com 2 na primeira definição, mas a definição inicial é de lematização, item 4. A alternativa já cai no primeiro vínculo, além de as demais associações também ficarem desalinhadas.
D
Errada
Incorreta porque traz 3 na primeira posição, quando a primeira definição descreve lematização. O erro já está no primeiro emparelhamento: deveria ser 4, não 3.
E
Certa
A alternativa E está correta porque a correspondência técnica usual é: lematização para forma de dicionário com base linguística/contextual; tokenização para divisão do texto em unidades menores; stemização para redução ao radical; POS Tagging para atribuição de classe morfossintática; e chunking para segmentação em grupos ou trechos para processamento posterior. Isso resulta na ordem 4-1-3-2-5.
Pegadinha da questão
A confusão real estava em distinguir lematização de stemização e tokenização de chunking. A primeira pede forma de dicionário com base linguística/contextual; a segunda apenas reduz ao radical. Já tokenização divide em unidades menores, enquanto chunking segmenta em grupos ou trechos maiores para etapas posteriores.
Dica para questões semelhantes
  • Se a definição fala em forma de dicionário com contexto e classe gramatical, marque lematização, não stemização.
  • Se a operação divide em palavras ou subpalavras, é tokenização; se agrupa em segmentos maiores para processamento posterior, é chunking.
  • Quando a definição menciona atribuir classe gramatical a cada palavra, o rótulo correto é POS Tagging.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Gab: E: 4 1 3 2 5. O minecraft deu o gabarito rsrs

Pre-processamento de texto

Tokens VS chunks:

  • Tokens: subpartes menores - maior granularidade - estão contidos num chunk - podem ser palavras ou partes de palavras
  • Chunks: subpartes maiores - menor granularidade - são compostos por tokens - podem ser conjuntos de palavras

Stemização VS Lematização:

  • Stemização: reduz palavras flexionadas/derivadas a sua raiz/tronco (stem)/radical
  • Lematização: reduz palavras à forma de dicionário (lema), observando as regras linguísticas e o significado da palavra no contexto.

POS tagging: etiquetas de classificação gramatical

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo