Em uma nota técnica do Ipea sobre emprego público nos gover...

Próximas questões
Com base no mesmo assunto
Q2383283 Engenharia de Software
Em uma nota técnica do Ipea sobre emprego público nos governos subnacionais brasileiros, no ano de 2016, aparece menção sobre o fato de as bases utilizadas possuirem outliers, ou valores atípicos.
A construção de um modelo preditivo a partir dos dados dessas bases, usando árvores aleatórias, Random Forests,  
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

```html

A alternativa A é a correta.

O tema da questão aborda o uso de modelos preditivos, especificamente o Random Forest, que é uma técnica de aprendizagem de máquina baseada em árvores de decisão. Um dos pontos fortes do Random Forest é a sua capacidade de reduzir a variância de um modelo, o que é conseguido ao combinar previsões de múltiplas árvores de decisão.

Justificativa da alternativa correta: A alternativa A apresentaria uma redução de variância. Random Forests são projetados para minimizar a variância através do uso de múltiplas árvores de decisão. Ao agregar as previsões dessas árvores, o algoritmo é capaz de suavizar e reduzir a variância, tornando o modelo mais robusto e eficaz na generalização de dados novos, mesmo quando esses dados apresentam valores atípicos ou outliers.

Análise das alternativas incorretas:

B - Seria inadequado, devido à sensibilidade a outliers de Random Forests. Esta afirmação é incorreta. Na verdade, Random Forests são menos sensíveis a outliers em comparação a algoritmos de árvore de decisão únicos, já que os efeitos de outliers podem ser diluídos ao agregar as previsões de muitas árvores.

C - Teria uma tendência a overfitting. Embora overfitting possa ocorrer em alguns modelos, Random Forest tende a ser menos propenso a overfitting devido à combinação de muitos modelos independentes, que ajuda a generalizar melhor para novos dados.

D - Teria propensão a underfitting. Underfitting ocorre quando um modelo é muito simples e não consegue capturar as tendências dos dados. Random Forest, ao utilizar múltiplas árvores de decisão, é geralmente capaz de capturar essas tendências de forma eficaz, reduzindo a chance de underfitting.

E - Teria dependência de linearidade nos dados. Esta é uma declaração incorreta, pois Random Forest não pressupõe linearidade nos dados. Na verdade, uma das vantagens deste método é sua flexibilidade para capturar relações não-lineares nos dados.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

```

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

A Random Forest (floresta aleatória) é conhecida por sua capacidade de lidar bem com outliers e outras irregularidades nos dados. Portanto, a afirmação mais precisa é:

A) Apresentaria uma redução de variância.

A Random Forest tende a reduzir a variância em comparação com uma única árvore de decisão, pois constrói várias árvores de decisão em diferentes subconjuntos dos dados e, em seguida, combina suas previsões por meio de votação ou média. Isso ajuda a mitigar os efeitos dos outliers e reduzir a variância geral do modelo.

As outras alternativas não são precisas no contexto da Random Forest:

B) Seria inadequado, devido à sensibilidade a outliers de Random Forests - Esta afirmação é incorreta, pois as Random Forests são robustas em relação a outliers.

C) Teria uma tendência a overfitting - Random Forests tendem a reduzir o overfitting devido à média ou votação de várias árvores, o que reduz a variância.

D) Teria propensão a underfitting - Random Forests geralmente não têm tendência a underfitting devido à sua capacidade de capturar relações complexas nos dados.

E) Teria dependência de linearidade nos dados - Random Forests são capazes de capturar relações não lineares nos dados devido à sua natureza de modelo de conjunto, portanto, não dependem de linearidade nos dados.

Portanto, a resposta correta é A) apresentaria uma redução de variância.

Um dos grandes problemas das árvores de decisões é o fato que elas se adaptam em demasia aos dados de treino, ou seja, elas sofrem muito com o problema de overfitting.

Quando temos um algoritmo que se adapta demais aos dados de treino e não possui capacidade de generalizaçao (não faz predições corretas em dados desconhecidos), temos um clássico caso de algoritmo com alta variância. O random forest serve justamente para melhorar esse gargalo da árvore de decisão, para isso o algoritmo usa o mecanismo de assemble bagging. O bagging nada mais é do que classificarmos os dados com base na "opinião" de várias árvores de decisão, no fim, após todas classificarem os dados, verificamos qual foi o voto majoritário das árvores e escolhemos este como nosso output.

Por causa desse uso de "várias árvores", o random forest é um algoritmo que lida melhor com outliers (OBS: não é imune a outlier) e, além disso, consegue contornar o problema de overfitting que ocorre quando usamos apenas uma árvore. Por isso, dizemos que ele não é afetado por outliers como as árvores de decisão e, ainda, que reduz a variância do modelo, visto que é robusto contra o overfitting.

Logo, gab A, como bem pontuado pelo colega Francisco.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo