Na modelagem estatística utilizando aprendizado de máquina, ...
Comentários
Veja os comentários dos nossos alunos
A alternativa correta é a C (avaliar desempenho generalizável e evitar overfitting).
Esta é uma das bases do aprendizado de máquina. O objetivo de um modelo não é apenas "decorar" os dados que ele já viu, mas sim ser capaz de fazer previsões precisas para dados novos e desconhecidos.
- Treinamento: É onde o modelo "aprende". Ele ajusta seus parâmetros internos para encontrar padrões nos dados.
- Validação: É usado para o ajuste de hiperparâmetros (como a profundidade de uma árvore ou a taxa de aprendizado). Ele serve para verificar se o modelo está começando a sofrer overfitting (quando o modelo se ajusta demais ao ruído do treino e perde o poder de generalização).
- Teste: É o "exame final". Este conjunto deve ser mantido isolado até o fim para fornecer uma estimativa imparcial de como o modelo se comportará no mundo real.
- A: A normalidade dos resíduos é uma suposição de modelos de regressão linear clássica para inferência, não o motivo da divisão de dados em ML.
- B: A divisão não reduz o viés dos coeficientes; na verdade, o uso de menos dados para treino (ao separar partes para teste) pode até aumentar levemente o viés ou a variância.
- D: A redução de dimensionalidade é feita por técnicas como PCA ou seleção de variáveis (feature selection), não pela divisão da base.
- E: Pelo contrário, o objetivo é controlar a variância para que o modelo seja estável e não mude drasticamente com pequenos ajustes nos dados.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo