Uma fintech desenvolveu um pipeline ponta a ponta (end-to-en...
O pipeline inclui as seguintes etapas:
(1) ingestão de dados em tempo real via streaming;
(2) feature engineering com agregações temporais (médias móveis de 7 e 30 dias);
(3) predição usando um modelo de gradient boosting;
(4) deployment em arquitetura de microsserviços.
Após três meses em produção, o time de MLOps observou degradação gradual no F1-score de 0.89 para 0.72, enquanto o monitoramento revelou que as distribuições das features agregadas apresentavam mudanças estatisticamente significativas (p < 0.01 no teste de Kolmogorov-Smirnov), embora as features brutas individuais permanecessem estáveis.
Considerando as melhores práticas de pipelines de ML em produção e estratégias de deployment, a equipe deve:
Comentários
Veja os comentários dos nossos alunos
Fonte ChatGPT
Resposta: C (correta) ✅
Temos um pipeline de Machine Learning em produção com:
- Queda de desempenho (F1: 0.89 → 0.72)
- Evidência estatística de data drift nas features agregadas
- Features brutas estáveis
Isso indica um problema típico de Data Drift / mudança de distribuição ao longo do tempo.
- Atualizar o modelo com dados mais recentes
- Testar com segurança antes de substituir o modelo atual
- Evitar impacto direto em produção
Isso leva a uma estratégia de deployment controlado.
A estratégia blue-green deployment consiste em:
- Manter o modelo atual (produção)
- Subir um novo modelo treinado com dados recentes em paralelo
- Direcionar o tráfego gradualmente
- Monitorar:
- F1-score
- Drift
- Estabilidade
Isso é best practice em MLOps
Remover features agregadas:
- Elas são valiosas para detectar padrões temporais
- O problema não é a existência delas, mas o drift
Apenas monitorar:
- Já existe degradação clara
- Não agir = risco alto em fraude
Retreinamento automático:
- É uma boa prática
- Mas:
- Não resolve o problema de forma segura em produção imediatamente
- Falta estratégia de validação/rollout
Pode ser complemento, não a melhor resposta única
Trocar para Deep Learning:
- Modelos mais complexos não resolvem drift automaticamente
- Pode piorar:
- custo
- explicabilidade
- estabilidade
O problema aqui não é o modelo, é o ambiente dinâmico (drift)
E a solução mais adequada é:
- atualizar com segurança + validar em produção
✔ Melhor prática: testar novo modelo em paralelo com rollout controlado
➡️ Gabarito: C ✅
Clique para visualizar este comentário
Visualize os comentários desta questão clicando no botão abaixo