Referente à arquitetura original do Transformer (conforme o...

Próximas questões
Com base no mesmo assunto
Q3729826 Noções de Informática
Referente à arquitetura original do Transformer (conforme o artigo “Attention is All You Need”, de Vaswani et. al. 2017), qual é a principal vantagem do uso do mecanismo Multi-Head Attention em comparação com uma única camada de atenção na arquitetura Transformer?
Alternativas