Na modelagem estatística utilizando aprendizado de máquina, ...

Próximas questões
Com base no mesmo assunto
Q3916781 Estatística
Na modelagem estatística utilizando aprendizado de máquina, a principal razão para separar os dados em conjuntos de treinamento, validação e teste é
Alternativas

Comentários

Veja os comentários dos nossos alunos

Análise das Alternativas Incorretas



B) Reduzir a dimensionalidade: Isso é feito por técnicas como PCA (Análise de Componentes Principais) ou seleção de variáveis (feature selection), não pela divisão dos dados.

C) Aumentar a variância: Na verdade, queremos o contrário. Alta variância é sinal de overfitting (o modelo é sensível demais a ruídos do treino). Queremos um equilíbrio entre viés e variância.

D) Garantir normalidade dos resíduos: Essa é uma suposição clássica da regressão linear estatística para testes de hipótese, mas não é o motivo da separação de conjuntos em machine learning.

E) Reduzir o viés do estimador: O viés está ligado à simplicidade do modelo (Underfitting). Separar os dados ajuda a medir o viés, mas a separação em si não o reduz (isso exigiria um modelo mais complexo ou melhores variáveis).

A) ✔ Correta

Essa é exatamente a finalidade da divisão:

  • Treino → aprender
  • Validação → ajustar sem “viciar”
  • Teste → medir desempenho real

Sem isso, o modelo pode ir bem nos dados conhecidos, mas mal em dados novos (overfitting).

B) Errada porque:

  • Dimensionalidade (quantidade de variáveis) é tratada com técnicas como:
  • PCA
  • Seleção de variáveis
  • Dividir dados não reduz número de variáveis, só separa os dados.

Ou seja, não tem relação direta.

C) Errada porque:

  • Na prática, queremos equilibrar viés e variância, não aumentar variância.
  • Separar dados não tem como objetivo mexer diretamente nisso.

Inclusive, overfitting está ligado a alta variância, que é algo que queremos evitar.

D) Errada porque:

  • Normalidade dos resíduos é uma preocupação de modelos estatísticos clássicos (como regressão linear).
  • E mesmo nesses casos, dividir dados não garante normalidade.

A normalidade depende dos dados e do modelo, não da divisão.

E) Errada porque:

  • Viés do estimador está ligado ao método de estimação (ex: regressão, regularização).
  • Separar dados não altera diretamente o viés dos coeficientes.

Serve para avaliar o modelo, não para ajustar propriedades estatísticas dos estimadores.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo