Bases de dados desbalanceadas podem afetar os resultados de ...
I. A técnica de oversampling envolve aumentar o número de instâncias da classe minoritária (menos frequente) para equilibrar a distribuição das classes.
II. A técnica de undersampling envolve reduzir o número de instâncias da classe majoritária (mais frequente) para equilibrar a distribuição das classes.
III. Antes de aplicar a técnica de oversampling, é importante dividir os dados em conjuntos de treino e teste. A técnica de oversampling só deve ser aplicada ao conjunto de testes.
As afirmativas I, II e III são respectivamente:
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Vamos analisar cada uma das afirmativas sobre o rebalanceamento de bases de dados, que é um tema importante no contexto de Ciência de Dados e Aprendizado de Máquina. Este tema é relevante porque, em muitos casos, especialmente em dados de saúde, a distribuição das classes pode ser desigual, influenciando negativamente o desempenho dos algoritmos de classificação.
I. Afirmativa: A técnica de oversampling envolve aumentar o número de instâncias da classe minoritária (menos frequente) para equilibrar a distribuição das classes.
Análise: Esta afirmativa é verdadeira. O oversampling é uma técnica usada para aumentar a representatividade da classe menos frequente replicando exemplos dela, ajudando a equilibrar a distribuição das classes no conjunto de dados.
II. Afirmativa: A técnica de undersampling envolve reduzir o número de instâncias da classe majoritária (mais frequente) para equilibrar a distribuição das classes.
Análise: Esta afirmativa é verdadeira. O undersampling reduz a quantidade de exemplos da classe mais frequente, o que também ajuda a equilibrar a distribuição das classes, mas pode resultar em perda de informação se não for aplicado com cuidado.
III. Afirmativa: Antes de aplicar a técnica de oversampling, é importante dividir os dados em conjuntos de treino e teste. A técnica de oversampling só deve ser aplicada ao conjunto de testes.
Análise: Esta afirmativa é falsa. A prática usual é aplicar o oversampling no conjunto de treinamento, não no de teste. Isso se deve ao fato de que o conjunto de teste deve permanecer representativo da realidade que o modelo enfrentará, sem introduzir viés ou informação artificialmente criada.
Alternativa correta: A alternativa correta é B - V, V e F.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
```Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo
Comentários
Veja os comentários dos nossos alunos
b-
test data sempre devem ser deixados em paz. nao se mexe nem se usam eles para oversampling ou nenhum outro metodo para estimar categorias ou treinar o modelo, senao ha o data leakage, o qual torna o modelo nao-confiavel para novos dados
- Training Data: to train the model, one oversamples the minority class to help the model learn better patterns
- Validation Data: This data tunes the model's parameters during training. It should remain representative of the real-world scenario, so no tampering with oversampling.
- Test Data: final dataset to assess the model's performance. Like the validation data, it should also remain unchanged
SIM; SOMENTE DADOS DE TREINO PODEM SER SUJEITOS A OVERSAMPLING E UNDERSAMPLING PARA NAO COMPROMETER O RESULTADO DO MODELO PARA NOVOS DADOS I.E.: EVITANDO A TEMIDA ACURÁCIA 1.0 ESPECIALMENTE PARA GRANDES DATASETS
Enquanto o oversampling aumenta a quantidade de exemplos da classe minoritária, o undersampling faz o contrário: ele diminui a quantidade de exemplos da classe majoritária. Um dos métodos mais utilizados é chamado de ENN (Edited Nearest Neighbours)⁴.
O ENN elimina exemplos de onde é mais provável que haja ruído de classe. O que geralmente ocorre em regiões onde as classes se sobrepõem ou quando se tratam de outliers (valores que variam muito em relação ao resto do conjunto). Ao eliminar estes pontos, a distinção entre as classes fica mais evidente.
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo