São vários os procedimentos para a busca do “subconjunto óti...

Próximas questões
Com base no mesmo assunto
Q3266532 Estatística
São vários os procedimentos para a busca do “subconjunto ótimo” de variáveis, na ausência da ortogonalidade, para obter uma equação de estimação adequada que relaciona uma variável Y a todas ou a um subconjunto de variáveis independentes. Considere o seguinte procedimento: 

PASSO 1: Escolha a variável que fornece a maior soma de quadrados da regressão em regressão linear simples com Y ou, de maneira equivalente, que forneça o maior valor de R2. Chamaremos essa variável inicial de X1.

PASSO 2: Escolha a variável que, quando inserida no modelo, fornece o maior aumento em R2, na presença de X1, sobre o valor de R2 encontrado no passo 1, isto é, a variável Xj para a qual:
Rj1) = R1, βj) – R1)
é maior. Vamos chamá-la de variável X2. O modelo de regressão com X1 e X2 é, então, ajustado e R2 é observado. 

PASSO 3: Escolha a variável Xj que fornece o maior valor de:
Rj1, β2) = R1, β2, βj) – R1, β2),
resultando novamente em um aumento em R2 sobre aquele dado no PASSO 2. Ao chamar essa variável de X3, agora temos um modelo de regressão que envolve X1, X2 e X3. Esse processo é continuado até que a variável inserida mais recentemente falhe ao produzir um aumento significativo na regressão explicada. Tal aumento pode ser determinado em cada passo, devendo-se usar o teste F (ou t) apropriado.

Por exemplo, no PASSO 2, o valor: Captura_de tela 2025-03-28 081059.png (142×33) pode ser determinado para testar a adequação de X2 no modelo. De maneira similar, no PASSO 3 a razão: Captura_de tela 2025-03-28 081107.png (173×38) testa a adequação de X3 no modelo.

Se f < f(1, n-3; α) no PASSO 2, para um nível de significância preestabelecido, X2 não é incluído e o processo é encerrado, resultando em uma equação linear simples que relaciona Y e X1.

Contudo, se f >f(1, n-3; α) deve-se seguir para o PASSO 3. Novamente, se f < f(1, n-4; α) no PASSO 3, X3 não é incluído e o processo é encerrado com a equação de regressão apropriada que contém as variáveis X1 e X2.

Notações utilizadas: 
R2 é o coeficiente de determinação do modelo de regressão;
R(.) é a soma dos quadrados do modelo de regressão em questão;
βj é o coeficiente do modelo de regressão que acompanha a variável Xj;
A notação ‘|’ indica a probabilidade condicional; 
Captura_de tela 2025-03-28 081130.png (39×31) é o quadrado do erro médio para o modelo que contém as variáveis X1 e X2;
Captura_de tela 2025-03-28 081141.png (47×32) é o quadrado do erro médio para o modelo que contém as variáveis X1, X2 e X3.

Essa descrição se refere ao método de seleção de variáveis:
Alternativas