Em aprendizado de máquina, a calibração de hiperparâmetros ...

Próximas questões
Com base no mesmo assunto
Ano: 2025 Banca: FUVEST Órgão: USP Prova: FUVEST - 2025 - USP - Analista de Sistemas |
Q3509629 Engenharia de Software
Em aprendizado de máquina, a calibração de hiperparâmetros é um processo importante para otimizar o desempenho de um modelo. Considere o seguinte cenário: Você está treinando um modelo de Random Forest para prever o preço de imóveis e percebe que o desempenho do modelo não está satisfatório. Após uma análise, você decide calibrar os hiperparâmetros para tentar melhorar o modelo. Para isso, você seleciona os seguintes hiperparâmetros para calibração: 

n_estimators (número de árvores na floresta); • max_depth (profundidade máxima de cada árvore); • min_samples_split (número mínimo de amostras necessárias para dividir um nó). 

Assinale a alternativa que apresenta a melhor abordagem para encontrar a combinação ideal desses hiperparâmetros.
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Alternativa correta: D

1. Tema central da questão: A questão aborda calibração de hiperparâmetros em modelos de Machine Learning, com foco especial no algoritmo Random Forest. O objetivo é encontrar a melhor estratégia para escolher valores ideais dos hiperparâmetros e, assim, otimizar o desempenho do modelo.

2. Resumo teórico: Hiperparâmetros são configurações externas ao modelo de aprendizado de máquina, como a quantidade de árvores (n_estimators), profundidade máxima (max_depth) e número mínimo de amostras por divisão (min_samples_split). Diferentemente dos parâmetros aprendidos durante o treinamento, os hiperparâmetros precisam ser ajustados pelo usuário. Para isso, as técnicas mais usadas são o Grid Search e o Random Search, geralmente combinadas com validação cruzada (cross-validation), que avalia o desempenho do modelo em diferentes subdivisões do conjunto de dados.

3. Justificativa da alternativa correta (D):
A pesquisa em grade (Grid Search) testa todas as combinações possíveis dos valores dos hiperparâmetros escolhidos, avaliando cada conjunto pelo desempenho em validação cruzada. Assim, garante uma busca sistemática e rigorosa, sendo considerada padrão ouro na maioria dos estudos e implementações acadêmicas (scikit-learn documentation). Portanto, é a melhor abordagem para encontrar a configuração ótima dos hiperparâmetros.

4. Análise das alternativas incorretas:

  • A: Ajustar manualmente sem validação cruzada é ineficiente, arriscando overfitting ou subestimação da performance.
  • B: Random Search pode ser eficiente, mas sem validação cruzada não há garantia de generalização e pode levar a conclusões enganosas.
  • C: Focar só em n_estimators ignora os outros hiperparâmetros, que também influenciam o desempenho.
  • E: Usar parâmetros padrão pode trazer resultados razoáveis, mas raramente é a melhor opção para contextos competitivos.

5. Estratégia de resolução:
Procure sempre por alternativas que mencionem métodos sistemáticos (como Grid Search ou validação cruzada), pois são recomendados por literatura e provas. Atenção para pegadinhas como "ajustar manualmente" ou confiar apenas em parâmetros padrão.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

A) Esse é o método mais trabalhoso e inviável na maioria dos casos.

B) O erro desta questão é dizer "sem avaliar o desempenho em diferentes subdivisões do conjunto de dados", pois pense bem, qual o sentido de não avaliar o desempenho de cada um dos conjuntos de hiperparâmetros em um "Afinamento de hiperparâmetros"?

C) Não podemos afirmar que o número de árvores aleatórias (n_estimators) é o único hiperparâmetro realmente importante, os demais também influenciam tanto positivamente quanto negativamente no modelo, a depender dos seus valores.

D) Resposta correta, o algoritmo de afinamento de hiperparâmetros Grid Search se baseia no teste de todas as combinações de hiperparâmetros possíveis. Posteriormente analisamos a performace de cada cenário e decidimos qual o conjunto de hiperparâmetros que apresentou o melhor desempenho. Vale ressaltar que o Grid Search não é viável em todos os casos, pois ele gera um consumo grande de poder de processamento, tendo em vista que todos ou quase todos os cenários de conjuntos de hiperparâmetros são testados.

E) Se isso fosse verdade, não haveria a necessidade da existência de cientistas de dados ou engenheiros de IA.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo