Uma empresa de e-commerce processa 10 milhões de transações...
[35, 42, 38, 40, 1500, 37, 39, 41, 36, 2500, 43, 5000, 38, 44, 3700]
Utilizando o Spark SQL, calcularam a média e o desvio padrão amostral das compras. Um valor é considerado anomalia se estiver acima de 2 desvios padrão da média.
Em relação à situação proposta e à análise, assinale a alternativa que apresenta as transações que podem ser classificadas como anômalas.
Comentários
Veja os comentários dos nossos alunos
https://youtu.be/xMvq8H-kmbU Tempo 15:50
Esta questão exige o cálculo da média e do desvio padrão para identificar o limite de corte de anomalias (outliers). O critério definido é: Valor > Média + 2 * Desvio Padrão.
Vamos aos cálculos passo a passo para o conjunto de dados: [35, 42, 38, 40, 1500, 37, 39, 41, 36, 2500, 43, 5000, 38, 44, 3700] (n=15)
Somamos todos os valores e dividimos por 15:
- Soma dos valores baixos (11 valores): 35+42+38+40+37+39+41+36+43+38+44=433
- Soma dos valores altos (4 valores): 1500+2500+5000+3700=12700
- Soma Total = 13133
Devido à presença de valores muito discrepantes (como 5000), o desvio padrão será bastante alto.
Limite = Média + 2 * Desvio Padrão
Limite = 875,53+2∗(1414,90)
Limite = 875,53+2829,80=3705,33
Comparando nossos valores altos com o limite de 3705,33:
- 1500: Abaixo do limite.
- 2500: Abaixo do limite.
- 3700: Abaixo do limite (por pouco!).
- 5000: Acima do limite.
A única transação que ultrapassa a barreira de dois desvios padrão acima da média é a de 5000.
Alternativa Correta: B
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo