Durante a otimização de um algoritmo de
criptografia em um processador superescalar
capaz de despachar quatro instruções por ciclo de
clock, identifica-se que um bloco específico de
código atinge apenas 1,0 instrução por ciclo (IPC).
A análise do assembly revela uma cadeia em que o
registrador de destino de uma instrução é
invariavelmente usado como operando fonte da
instrução imediatamente seguinte. Qual é a
barreira técnica que impede o hardware de
despachar múltiplas instruções simultaneamente
nesse cenário?