Bases de dados desbalanceadas podem afetar os resultados de ...

Próximas questões
Com base no mesmo assunto
Q3331532 Sistemas de Informação
Bases de dados desbalanceadas podem afetar os resultados de muitos algoritmos que tentam identificar padrões nesses dados. Essa é uma realidade para muitas bases da saúde, pois a prevalência de uma doença na população pode ser algo raro. Sobre o processo de rebalanceamento de bases de dados, avalie se são verdadeiras (V) ou falsas (F) as afirmativas a seguir.

I. A técnica de oversampling envolve aumentar o número de instâncias da classe minoritária (menos frequente) para equilibrar a distribuição das classes.

II. A técnica de undersampling envolve reduzir o número de instâncias da classe majoritária (mais frequente) para equilibrar a distribuição das classes.

III. Antes de aplicar a técnica de oversampling, é importante dividir os dados em conjuntos de treino e teste. A técnica de oversampling só deve ser aplicada ao conjunto de testes.

As afirmativas I, II e III são respectivamente:
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

```html

Vamos analisar cada uma das afirmativas sobre o rebalanceamento de bases de dados, que é um tema importante no contexto de Ciência de Dados e Aprendizado de Máquina. Este tema é relevante porque, em muitos casos, especialmente em dados de saúde, a distribuição das classes pode ser desigual, influenciando negativamente o desempenho dos algoritmos de classificação.

I. Afirmativa: A técnica de oversampling envolve aumentar o número de instâncias da classe minoritária (menos frequente) para equilibrar a distribuição das classes.

Análise: Esta afirmativa é verdadeira. O oversampling é uma técnica usada para aumentar a representatividade da classe menos frequente replicando exemplos dela, ajudando a equilibrar a distribuição das classes no conjunto de dados.

II. Afirmativa: A técnica de undersampling envolve reduzir o número de instâncias da classe majoritária (mais frequente) para equilibrar a distribuição das classes.

Análise: Esta afirmativa é verdadeira. O undersampling reduz a quantidade de exemplos da classe mais frequente, o que também ajuda a equilibrar a distribuição das classes, mas pode resultar em perda de informação se não for aplicado com cuidado.

III. Afirmativa: Antes de aplicar a técnica de oversampling, é importante dividir os dados em conjuntos de treino e teste. A técnica de oversampling só deve ser aplicada ao conjunto de testes.

Análise: Esta afirmativa é falsa. A prática usual é aplicar o oversampling no conjunto de treinamento, não no de teste. Isso se deve ao fato de que o conjunto de teste deve permanecer representativo da realidade que o modelo enfrentará, sem introduzir viés ou informação artificialmente criada.

Alternativa correta: A alternativa correta é B - V, V e F.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

```

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

b-

test data sempre devem ser deixados em paz. nao se mexe nem se usam eles para oversampling ou nenhum outro metodo para estimar categorias ou treinar o modelo, senao ha o data leakage, o qual torna o modelo nao-confiavel para novos dados

  1. Training Data: to train the model, one oversamples the minority class to help the model learn better patterns
  2. Validation Data: This data tunes the model's parameters during training. It should remain representative of the real-world scenario, so no tampering with oversampling.
  3. Test Data: final dataset to assess the model's performance. Like the validation data, it should also remain unchanged

SIM; SOMENTE DADOS DE TREINO PODEM SER SUJEITOS A OVERSAMPLING E UNDERSAMPLING PARA NAO COMPROMETER O RESULTADO DO MODELO PARA NOVOS DADOS I.E.: EVITANDO A TEMIDA ACURÁCIA 1.0 ESPECIALMENTE PARA GRANDES DATASETS

Enquanto o oversampling aumenta a quantidade de exemplos da classe minoritária, o undersampling faz o contrário: ele diminui a quantidade de exemplos da classe majoritária. Um dos métodos mais utilizados é chamado de ENN (Edited Nearest Neighbours)⁴.

O ENN elimina exemplos de onde é mais provável que haja ruído de classe. O que geralmente ocorre em regiões onde as classes se sobrepõem ou quando se tratam de outliers (valores que variam muito em relação ao resto do conjunto). Ao eliminar estes pontos, a distinção entre as classes fica mais evidente.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo