Em LLM (large language models), como o GPT, o mecanismo pri...
- Gabarito Comentado (1)
- Aulas (12)
- Comentários (12)
- Estatísticas
- Cadernos
- Criar anotações
- Notificar Erro
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Tema central: A questão aborda o conhecimento sobre o mecanismo principal dos LLMs (Large Language Models), como o GPT, responsáveis pela geração de texto de forma coerente e contextualizada.
Explicação Didática:
Os LLMs são redes neurais complexas que revolucionaram o processamento de linguagem natural. Seu destaque se deve à utilização da arquitetura Transformer, que faz uso fundamental do chamado mecanismo de atenção. Esse mecanismo permite que o modelo “preste atenção” nas partes mais relevantes de uma sequência de texto em cada etapa da geração, atribuindo pesos diferenciados às palavras conforme o contexto.
Assim, o modelo compreende dependências de longo alcance (como referência a acontecimentos no início do texto) e produz respostas altamente coesas e contextualizadas. Este conceito foi trazido ao público no famoso artigo "Attention is All You Need" (Vaswani et al., 2017).
Justificativa da alternativa correta (E):
A alternativa E) Redes Transformer baseadas em atenção está correta, pois é exatamente esta arquitetura que sustenta a eficiência dos LLMs modernos, viabilizando a geração de textos complexos e ricos em contexto.
Análise das alternativas incorretas:
- A) Algoritmos de busca por vizinhos mais próximos: comuns em classificação ou mineração, mas não em geração de texto.
- B) Redes neurais convolucionais: apropriadas para imagens, não para textos contextuais longos.
- C) Modelos de Markov de alta ordem: usados em modelagem probabilística sequencial, mas incapazes de lidar com contextos longos e complexos como os Transformers.
- D) Árvores de decisão com bagging: técnicas clássicas de machine learning para classificação/regressão, sem relação com geração textual em LLMs.
Dica de Interpretação: Fique atento à menção explícita de arquitetura, atenção e Transformers sempre que abordar mecanismos de LLMs em provas. Termos similares, como “convolucional” ou “Markov”, podem confundir, mas têm aplicações distintas!
Resumo: Para LLMs, como o GPT, foque sempre em Transformers e atenção como mecanismos centrais.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
✅GABARITO LETRA E
O mecanismo de atenção é o núcleo dessa arquitetura, permitindo que o modelo dê peso diferente a cada palavra do contexto, gerando textos coerentes, contextualizados e relevantes.
A alternativa correta é:
✅ E) redes transformer baseadas em atenção.
- Modelos LLM (Large Language Models), como o GPT (Generative Pre-trained Transformer), utilizam uma arquitetura chamada Transformer, introduzida no artigo "Attention is All You Need" (Vaswani et al., 2017).
- O mecanismo de atenção (attention mechanism) é o núcleo dessa arquitetura: ele permite que o modelo “preste atenção” em diferentes partes do texto de entrada ao gerar cada palavra, garantindo coerência, contexto e continuidade semântica.
- A) Algoritmos de busca por vizinhos mais próximos → usados em sistemas de recomendação ou recuperação de informação, não em geração de linguagem.
- B) Redes neurais convolucionais → aplicadas principalmente em visão computacional, não em linguagem natural.
- C) Modelos de Markov → são modelos probabilísticos mais antigos e limitados, incapazes de capturar dependências de longo prazo como os LLMs fazem.
- D) Árvores de decisão com bagging → base de métodos como Random Forests, usados em classificação e regressão, não em processamento de linguagem natural.
Assim, os Transformers baseados em atenção são o mecanismo essencial que permite aos LLMs, como o GPT, gerar textos coerentes, contextuais e semanticamente ricos.
Redes Transformer baseadas em atenção (Self-Attention).
Como funciona: o modelo analisa todas as palavras de uma frase ao mesmo tempo e identifica quais são mais relevantes para prever a próxima palavra.
Resultado: compreensão de contexto, coerência e continuidade no texto.
⚙️ Componentes principais:
• Camadas de atenção → determinam relações entre palavras.
• Positional encoding → indica a ordem das palavras.
• Feed-forward networks → refinam a interpretação do texto.
IA- aprendizado de máquina- subcampo da ia que dá aos computadores a habilidade de aprender sem serem explicitamente programados.
supervisionado- se caracteriza pela utilização de dados previamente rotulados para treinar um modelo de aprendizado de máquina, permitindo que ele aprenda padrões automaticamente a partir de rótulos desses dados.
dentro do aprendizado supervisionado, há duas vertentes- classificação- o algoritmo aprende a associar entradas a categorias pré-definidas, com base em exemplos rotulados. o modelo analisa um conjunto de dados rotulados e aprende padrões que permitem prever a classe correta de novos dados ainda não vistos. regressão- é uma técnica de aprendizado supervisionado voltado para a previsão de valores numéricos contínuos com base em uma ou mais variáveis de entrada.
não supervisionado- usa dados não rotulados, tarefa descritiva, busca entender padrões ocultos, usa técnicas de associação e agrupamento.
o aprendizado não supervisionado, busca analisar os dados de forma autônoma, sem a necessidade de rótulos ou saídas previamente definidas. O modelo busca identificar padrões ocultos nos dados, sem qualquer orientação externa.
usa técnicas de agrupamento/clusterização e associação.
agrupamento- ele separa um conjunto de objetos em grupos compostos por objetos semelhantes entre si. trabalha com dados não rotulados. seu objetivo é descobrir automaticamente esses grupos, com basse em padrões ou características comuns. usa o algoritmo k-means.
associação- o objetivo é descobrir relações específicas dentro do aprendizado não supervisionado.
Os LLMs (Large Language Models), como o GPT, são baseados em redes Transformer, cuja principal inovação é o mecanismo de atenção (self-attention).
Esse mecanismo permite que o modelo:
- Analise relações entre palavras em diferentes posições do texto;
- Considere todo o contexto da sequência de entrada, e não apenas palavras adjacentes;
- Pese dinamicamente a importância de cada token ao gerar o próximo, produzindo texto coerente, contextualizado e semanticamente consistente.
Análise das alternativas incorretas:
- A) Algoritmos de busca por vizinhos mais próximos. Errado. Usados em recuperação de informação e clustering, não na geração contextual de texto.
- B) Redes neurais convolucionais (CNNs). Errado. Mais adequadas para visão computacional; não são o núcleo dos LLMs modernos.
- C) Modelos de Markov de alta ordem. Errado. Consideram dependências limitadas e não capturam contexto de longo alcance como os Transformers.
- D) Árvores de decisão com bagging. Errado. Técnicas clássicas de aprendizado supervisionado, sem aplicação direta em geração de linguagem natural.
Gabarito: E
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo