Julgue o próximo item, relativo à avaliação de modelos.Consi...
Julgue o próximo item, relativo à avaliação de modelos.
Considere que o gráfico a seguir descreva o resultado de três modelos de regressão logística distintos e que os resultados de AUC para os modelos referentes às curvas A, B e C sejam, respectivamente, 0,91, 0,77 e 0,59. A partir dessas informações, é correto afirmar que o modelo relativo à curva A é o melhor para classificar corretamente os dados presentes no conjunto de dados utilizado, ainda que o modelo relativo à curva C tenha obtido o menor valor.

Comentários
Veja os comentários dos nossos alunos
Grave isso: Quanto mais próxima a curva ROC estiver do canto superior esquerdo do gráfico, melhor o modelo será capaz de classificar os dados.
O modelo A possui a AUC mais alta, indicando que possui a maior área sob a curva e é o melhor modelo para classificar corretamente as observações em categorias.
A questão tá certa.
Introdução a Avaliação de Modelos de Regressão Logística e AUC
A regressão logística é um modelo amplamente utilizado para tarefas de classificação binária, onde o objetivo é prever a probabilidade de uma determinada observação pertencer a uma das duas classes possíveis. A avaliação da performance desses modelos é crucial para entender a sua eficácia. Um dos indicadores mais comuns utilizados é a AUC (Área Sob a Curva), que se refere à área sob a curva ROC (Receiver Operating Characteristic). A AUC varia entre 0 e 1, sendo que valores mais próximos de 1 indicam um desempenho melhor do modelo, uma vez que ele distingue melhor entre as classes. Um modelo com AUC de 1 é perfeito, enquanto um modelo com AUC próximo de 0,5 é considerado aleatório.
A curva ROC representa a relação entre duas métricas importantes: a Taxa de Verdadeiros Positivos (TPR), que é a proporção de positivos corretamente identificados (também conhecida como sensibilidade ou recall), e a Taxa de Falsos Positivos (FPR), que é a proporção de negativos incorretamente classificados como positivos. A curva ROC é um gráfico que plota a TPR no eixo vertical e a FPR no eixo horizontal. Em um modelo perfeito, a curva sobe rapidamente até o topo, ficando próxima ao eixo Y, o que indica uma alta taxa de verdadeiros positivos e uma baixa taxa de falsos positivos.
Já a AUC mede a área sob a curva ROC e fornece uma maneira quantitativa de avaliar o desempenho do modelo. A AUC varia de 0 a 1, e quanto maior essa área, melhor o modelo. Um valor de AUC igual a 1 indica um modelo perfeito, enquanto uma AUC superior a 0,7 sugere um bom desempenho. Valores de AUC entre 0,5 e 0,7 indicam um desempenho razoável, e uma AUC de 0,5 significa que o modelo é equivalente a uma classificação aleatória, sem capacidade de discriminação entre as classes.
Em resumo, a curva ROC permite visualizar o equilíbrio entre as taxas de verdadeiros positivos e falsos positivos, enquanto a AUC quantifica a capacidade do modelo em discriminar entre as classes. Um valor maior de AUC é indicativo de um modelo mais eficaz.
Resolução
A assertiva está correta. O gráfico descrito indica que a curva A tem a maior AUC (0,91), seguida pela curva B (0,77) e, por último, a curva C (0,59). A AUC é uma métrica importante para avaliar a capacidade de um modelo em discriminar corretamente entre as classes. Quanto maior o valor da AUC, melhor o modelo é em termos de classificação. Portanto, com base nos valores fornecidos de AUC, o modelo relativo à curva A é, de fato, o melhor entre os três, já que apresenta a maior área sob a curva, indicando uma melhor capacidade de classificação dos dados. Mesmo que o modelo relacionado à curva C tenha obtido o menor valor de AUC, a relação entre as curvas A, B e C demonstra claramente que o modelo A é superior em termos de desempenho.
Resposta: Correta - ChatGPT
A curva ROC avalia desempenho de classificadores.
O AUC (Área sob a curva) mede a capacidade de separação entre classes.
Valores fornecidos na questão
- Curva A → AUC = 0,91 → Melhor desempenho
- Curva B → AUC = 0,77
- Curva C → AUC = 0,59 → Próximo do aleatório (0,5)
Quanto maior o AUC, melhor o modelo.
Logo, o modelo da curva A é o que melhor classifica os dados.
Algo que tive dificuldade de entender foi o significado da curva.
Pense que os 3 modelos (A, B e C) possuem uma saída V ou F (como as respostas possíveis dessa pergunta).
Vamos supor que eles sejam modelos para resolver perguntas da CEBRASPE. Quando uma pergunta/acertiva é apresentada a cada um dos modelos, ele atribui uma probabilidade dessa acertiva ser verdadeira entre 0 a 100% (0 a 1).
Ok, supondo que uma pergunta apresentada ao modelo A retorne 50% (0,5), qual resposta ele deve escolher: verdadeiro (positivo) ou falso (negativo)? É aí que entra a curva. Cada ponto na curva do modelo A representa um limiar/ponto de corte/threshold utilizado.
Digamos que vamos considerar apenas perguntas com retorno igual ou superior a 0,6 como verdadeiras, sendo as restantes consideradas falsas. Nesse caso, o modelo A responderia falso (negativo). Se ele acertar, essa pergunta será registrada como um verdadeiro negativo, se errar, será um falso negativo (considerou negativo quando não era).
Já se considerarmos perguntas com retorno igual ou superior a 0,4 como verdadeiras, o modelo A responderia ao 0,5 como verdadeiro (positivo). Se ele acertar, essa pergunta será um verdadeiro positivo, e se errar, um falso positivo.
Enfim, ao considerar 0,6 como ponto de corte, será possível estimar a razão de verdadeiros positivos e falsos positivos que se tornará um ponto no gráfico. Considerando 0,4 o ponto de corte, este será outro ponto. A curva é criada ao considerar todos os pontos de corte concebíveis. Por isso, preferimos curvas com maior área abaixo dela (AUC), pois tenderão a funcionar melhor (realizar a previsão correta) na maioria dos pontos de corte possíveis.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo