Na modelagem estatística utilizando aprendizado de máquina, ...
Comentários
Veja os comentários dos nossos alunos
Análise das Alternativas Incorretas
B) Reduzir a dimensionalidade: Isso é feito por técnicas como PCA (Análise de Componentes Principais) ou seleção de variáveis (feature selection), não pela divisão dos dados.
C) Aumentar a variância: Na verdade, queremos o contrário. Alta variância é sinal de overfitting (o modelo é sensível demais a ruídos do treino). Queremos um equilíbrio entre viés e variância.
D) Garantir normalidade dos resíduos: Essa é uma suposição clássica da regressão linear estatística para testes de hipótese, mas não é o motivo da separação de conjuntos em machine learning.
E) Reduzir o viés do estimador: O viés está ligado à simplicidade do modelo (Underfitting). Separar os dados ajuda a medir o viés, mas a separação em si não o reduz (isso exigiria um modelo mais complexo ou melhores variáveis).
A) ✔ Correta
Essa é exatamente a finalidade da divisão:
- Treino → aprender
- Validação → ajustar sem “viciar”
- Teste → medir desempenho real
Sem isso, o modelo pode ir bem nos dados conhecidos, mas mal em dados novos (overfitting).
B) Errada porque:
- Dimensionalidade (quantidade de variáveis) é tratada com técnicas como:
- PCA
- Seleção de variáveis
- Dividir dados não reduz número de variáveis, só separa os dados.
Ou seja, não tem relação direta.
C) Errada porque:
- Na prática, queremos equilibrar viés e variância, não aumentar variância.
- Separar dados não tem como objetivo mexer diretamente nisso.
Inclusive, overfitting está ligado a alta variância, que é algo que queremos evitar.
D) Errada porque:
- Normalidade dos resíduos é uma preocupação de modelos estatísticos clássicos (como regressão linear).
- E mesmo nesses casos, dividir dados não garante normalidade.
A normalidade depende dos dados e do modelo, não da divisão.
E) Errada porque:
- Viés do estimador está ligado ao método de estimação (ex: regressão, regularização).
- Separar dados não altera diretamente o viés dos coeficientes.
Serve para avaliar o modelo, não para ajustar propriedades estatísticas dos estimadores.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo