Em relação ao processamento de linguagem natural, NÃO é cor...
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: B
Tema central da questão: A questão trata de processamento de linguagem natural (PLN), área da inteligência artificial que estuda como fazer computadores compreenderem e processarem a linguagem humana. Para responder, é importante entender conceitos como modelos de n-gramas, saco de palavras e técnicas de pré-processamento de texto.
Resumo teórico: No PLN, n-gramas são sequências de "n" palavras ou caracteres, muito usados em tarefas como identificação de idioma e correção ortográfica (Jurafsky & Martin, "Speech and Language Processing"). Saco de palavras é um modelo que ignora a ordem das palavras, mas serve bem para tarefas de classificação. O pré-processamento (remoção de stopwords, normalização, etc.) é essencial para eliminar ruídos e melhorar o desempenho dos modelos.
Justificativa da alternativa correta (B):
A alternativa B afirma que "é importante a seleção de características e o pré-processamento para eliminar anomalias". No entanto, essa afirmação está INCORRETA porque o pré-processamento não elimina anomalias por si só. Ele serve para padronizar e limpar os dados (como corrigir erros de digitação, remover palavras irrelevantes), mas anomalias (valores inesperados, outliers, dados fora do padrão) muitas vezes exigem técnicas específicas de detecção e tratamento, além do pré-processamento básico. Por isso, a alternativa não está correta.
Análise das alternativas incorretas:
A: Correta. Modelos de n-gramas são realmente eficientes para identificação de idioma e correção ortográfica, aproveitando padrões frequentes de palavras ou letras.
C: Correta. A classificação de texto pode ser feita combinando-se n-gramas com algoritmos tradicionais como Naive Bayes, SVM, etc.
D: Correta. Sistemas de recuperação de informação frequentemente usam o modelo "saco de palavras", e com grandes volumes de texto, atingem bons níveis de precisão e cobertura.
E: Correta. Extração de informação requer modelos mais complexos, incluindo alguma análise sintática e semântica, frequentemente implementados com autômatos de estado finito.
Dica de interpretação: Ao encontrar a expressão "NÃO é correto", busque a alternativa que foge do conhecimento clássico ou exagera na afirmação. Cuidado com termos absolutos ou que confundem conceitos, como neste caso, entre pré-processamento e tratamento de anomalias.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo