O LDA (do inglês, Latent Dirichlet Allocation) é um modelo
de aprendizado não supervisionado e estatístico utilizado
no Processamento de Linguagem Natural (PLN). No
processo de treinamento, o modelo LDA gera tópicos,
sendo que cada tópico incorpora uma quantidade de
palavras. Sob a mesma lógica, o resultado da aplicação do
LDA sobre um conjunto de documentos textuais pode ser
resumido como:
O Processamento de Linguagem Natural (PLN) é a área da
inteligência artificial que analisa, reconhece e/ou gera
textos em linguagens humanas (ou natural). Para
processar dados textuais, é necessário primeiramente
transformá-los em valores numéricos, sendo utilizados
algoritmos do tipo word embeddings, tais como glove, tf-idf,
word2vector e bag of words (BOW). São características do
algoritmo word2vector:
Os algoritmos de agrupamento buscam identificar padrões
existentes em conjuntos de dados, podendo ser do tipo
particionais, hierárquicos ou baseados na otimização da
função custo. É um exemplo de agrupamento hierárquico:
A multicolinearidade ocorre quando duas ou mais variáveis
independentes encontram-se altamente correlacionadas,
causando instabilidade na estimação dos parâmetros e
pode comprometer a interpretação dos modelos de
regressão. Uma técnica alternativa para lidar com a
multicolinearidade é a
Redes neurais recorrentes (RNNs) são modelos de
aprendizado profundo treinados para reconhecer padrões
em dados sequenciais (texto, imagens, genomas,
caligrafia, palavra falada ou dados de séries numéricas),
em que componentes se inter-relacionam com base em
regras complexas de semântica e sintaxe. São
características das redes neurais recorrentes: