Uma fintech desenvolveu um pipeline ponta a ponta (end-to-en...

Próximas questões
Com base no mesmo assunto
Q3878696 Engenharia de Software
Uma fintech desenvolveu um pipeline ponta a ponta (end-to-end) de machine learning para detecção de fraudes em transações financeiras.
O pipeline inclui as seguintes etapas:
(1) ingestão de dados em tempo real via streaming;

(2) feature engineering com agregações temporais (médias móveis de 7 e 30 dias);
(3) predição usando um modelo de gradient boosting;
(4) deployment em arquitetura de microsserviços.
Após três meses em produção, o time de MLOps observou degradação gradual no F1-score de 0.89 para 0.72, enquanto o monitoramento revelou que as distribuições das features agregadas apresentavam mudanças estatisticamente significativas (p < 0.01 no teste de Kolmogorov-Smirnov), embora as features brutas individuais permanecessem estáveis.
Considerando as melhores práticas de pipelines de ML em produção e estratégias de deployment, a equipe deve:
Alternativas

Comentários

Veja os comentários dos nossos alunos

Fonte ChatGPT

Resposta: C (correta)

Temos um pipeline de Machine Learning em produção com:

  • Queda de desempenho (F1: 0.89 → 0.72)
  • Evidência estatística de data drift nas features agregadas
  • Features brutas estáveis

Isso indica um problema típico de Data Drift / mudança de distribuição ao longo do tempo.

  • Atualizar o modelo com dados mais recentes
  • Testar com segurança antes de substituir o modelo atual
  • Evitar impacto direto em produção

Isso leva a uma estratégia de deployment controlado.

A estratégia blue-green deployment consiste em:

  • Manter o modelo atual (produção)
  • Subir um novo modelo treinado com dados recentes em paralelo
  • Direcionar o tráfego gradualmente
  • Monitorar:
  • F1-score
  • Drift
  • Estabilidade

Isso é best practice em MLOps

Remover features agregadas:

  • Elas são valiosas para detectar padrões temporais
  • O problema não é a existência delas, mas o drift

Apenas monitorar:

  • Já existe degradação clara
  • Não agir = risco alto em fraude

Retreinamento automático:

  • É uma boa prática
  • Mas:
  • Não resolve o problema de forma segura em produção imediatamente
  • Falta estratégia de validação/rollout

Pode ser complemento, não a melhor resposta única

Trocar para Deep Learning:

  • Modelos mais complexos não resolvem drift automaticamente
  • Pode piorar:
  • custo
  • explicabilidade
  • estabilidade

O problema aqui não é o modelo, é o ambiente dinâmico (drift)

E a solução mais adequada é:

  • atualizar com segurança + validar em produção

✔ Melhor prática: testar novo modelo em paralelo com rollout controlado

➡️ Gabarito: C

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo