Na modelagem estatística utilizando aprendizado de máquina, ...

Próximas questões
Com base no mesmo assunto
Q3954827 Estatística
Na modelagem estatística utilizando aprendizado de máquina, a principal razão para separar os dados em conjuntos de treinamento, validação e teste é 
Alternativas

Comentários

Veja os comentários dos nossos alunos

A alternativa correta é a C (avaliar desempenho generalizável e evitar overfitting).

Esta é uma das bases do aprendizado de máquina. O objetivo de um modelo não é apenas "decorar" os dados que ele já viu, mas sim ser capaz de fazer previsões precisas para dados novos e desconhecidos.

  • Treinamento: É onde o modelo "aprende". Ele ajusta seus parâmetros internos para encontrar padrões nos dados.
  • Validação: É usado para o ajuste de hiperparâmetros (como a profundidade de uma árvore ou a taxa de aprendizado). Ele serve para verificar se o modelo está começando a sofrer overfitting (quando o modelo se ajusta demais ao ruído do treino e perde o poder de generalização).
  • Teste: É o "exame final". Este conjunto deve ser mantido isolado até o fim para fornecer uma estimativa imparcial de como o modelo se comportará no mundo real.
  • A: A normalidade dos resíduos é uma suposição de modelos de regressão linear clássica para inferência, não o motivo da divisão de dados em ML.
  • B: A divisão não reduz o viés dos coeficientes; na verdade, o uso de menos dados para treino (ao separar partes para teste) pode até aumentar levemente o viés ou a variância.
  • D: A redução de dimensionalidade é feita por técnicas como PCA ou seleção de variáveis (feature selection), não pela divisão da base.
  • E: Pelo contrário, o objetivo é controlar a variância para que o modelo seja estável e não mude drasticamente com pequenos ajustes nos dados.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo