Em aprendizado de máquina, a calibração de hiperparâmetros ...
• n_estimators (número de árvores na floresta); • max_depth (profundidade máxima de cada árvore); • min_samples_split (número mínimo de amostras necessárias para dividir um nó).
Assinale a alternativa que apresenta a melhor abordagem para encontrar a combinação ideal desses hiperparâmetros.
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa correta: D
1. Tema central da questão: A questão aborda calibração de hiperparâmetros em modelos de Machine Learning, com foco especial no algoritmo Random Forest. O objetivo é encontrar a melhor estratégia para escolher valores ideais dos hiperparâmetros e, assim, otimizar o desempenho do modelo.
2. Resumo teórico: Hiperparâmetros são configurações externas ao modelo de aprendizado de máquina, como a quantidade de árvores (n_estimators), profundidade máxima (max_depth) e número mínimo de amostras por divisão (min_samples_split). Diferentemente dos parâmetros aprendidos durante o treinamento, os hiperparâmetros precisam ser ajustados pelo usuário. Para isso, as técnicas mais usadas são o Grid Search e o Random Search, geralmente combinadas com validação cruzada (cross-validation), que avalia o desempenho do modelo em diferentes subdivisões do conjunto de dados.
3. Justificativa da alternativa correta (D):
A pesquisa em grade (Grid Search) testa todas as combinações possíveis dos valores dos hiperparâmetros escolhidos, avaliando cada conjunto pelo desempenho em validação cruzada. Assim, garante uma busca sistemática e rigorosa, sendo considerada padrão ouro na maioria dos estudos e implementações acadêmicas (scikit-learn documentation). Portanto, é a melhor abordagem para encontrar a configuração ótima dos hiperparâmetros.
4. Análise das alternativas incorretas:
- A: Ajustar manualmente sem validação cruzada é ineficiente, arriscando overfitting ou subestimação da performance.
- B: Random Search pode ser eficiente, mas sem validação cruzada não há garantia de generalização e pode levar a conclusões enganosas.
- C: Focar só em n_estimators ignora os outros hiperparâmetros, que também influenciam o desempenho.
- E: Usar parâmetros padrão pode trazer resultados razoáveis, mas raramente é a melhor opção para contextos competitivos.
5. Estratégia de resolução:
Procure sempre por alternativas que mencionem métodos sistemáticos (como Grid Search ou validação cruzada), pois são recomendados por literatura e provas. Atenção para pegadinhas como "ajustar manualmente" ou confiar apenas em parâmetros padrão.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
A) Esse é o método mais trabalhoso e inviável na maioria dos casos.
B) O erro desta questão é dizer "sem avaliar o desempenho em diferentes subdivisões do conjunto de dados", pois pense bem, qual o sentido de não avaliar o desempenho de cada um dos conjuntos de hiperparâmetros em um "Afinamento de hiperparâmetros"?
C) Não podemos afirmar que o número de árvores aleatórias (n_estimators) é o único hiperparâmetro realmente importante, os demais também influenciam tanto positivamente quanto negativamente no modelo, a depender dos seus valores.
D) Resposta correta, o algoritmo de afinamento de hiperparâmetros Grid Search se baseia no teste de todas as combinações de hiperparâmetros possíveis. Posteriormente analisamos a performace de cada cenário e decidimos qual o conjunto de hiperparâmetros que apresentou o melhor desempenho. Vale ressaltar que o Grid Search não é viável em todos os casos, pois ele gera um consumo grande de poder de processamento, tendo em vista que todos ou quase todos os cenários de conjuntos de hiperparâmetros são testados.
E) Se isso fosse verdade, não haveria a necessidade da existência de cientistas de dados ou engenheiros de IA.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo