HiveQL é uma linguagem de consulta, semelhante ao SQL, para...
HiveQL é uma linguagem de consulta, semelhante ao SQL, para Hive. Uma das suas características interessantes é ter uma extensão que permite distribuir consultas entre reducers em um script do tipo map-reduce.
Se for necessário simultaneamente distribuir as consultas e garantir a ordenação ou o agrupamento das chaves distribuídas, deve-se usar a extensão
Query HiveQL:
SELECT Id, Name from employees_guru CLUSTER BY Id;
Questão pra escriturário?????
Gabarito: C. Nível altíssimo! A persistência leva ao êxito! Nunca perca a fé!Isso é pra escriturário??? Really???
não ecob4ado HiveQL para escriturario
vemos aqui que pra passar pra escriturário não é lá tão fácil assim kkkk, muito pelo contrário
Só acertei porque sei que MapReduce tem associação com CLUSTERS... Enão era meio obvio. Mas para quem não sabe disso é difícil mesmo :/
A questão falou sobre agrupamento, logo a extensão a ser usado é CLUSTER BY. Fiz por dedução.
CLUSTER BY. Só traduzir do inglês e de maneira análoga, observar junto a questão
Essa prova de 2018 do BB me dá medo
A alternativa correta é a C - CLUSTER BY.
Para compreender essa questão, é necessário entender que o HiveQL é uma linguagem de consulta do Apache Hive, que em muitos aspectos se assemelha ao SQL padrão. O Hive é uma infraestrutura de data warehouse construída sobre o Hadoop, permitindo a execução de operações de big data com a requisitação de SQL-like queries.
O CLUSTER BY é utilizado quando desejamos que a distribuição das consultas seja feita de forma que os dados com a mesma chave sejam encaminhados ao mesmo reducer e, além disso, que haja um pré-agrupamento ou ordenação dessas chaves. Quando você escolhe usar o CLUSTER BY, o Hive irá inserir os dados em múltiplos reducers de maneira distribuída e, mais importante, os dados serão processados em cada reducer de forma ordenada com base na coluna ou colunas especificadas na cláusula CLUSTER BY.
Este conceito é crucial quando trabalhamos com big data, pois otimiza a performance das consultas, permitindo que operações como agrupamentos e ordenações sejam feitas de maneira eficiente no contexto de processamento distribuído.
Portanto, a opção C - CLUSTER BY é a correta porque atende ao requisito de distribuir as consultas enquanto garante a ordenação ou agrupamento das chaves distribuídas entre os reducers, uma funcionalidade essencial para a realização de operações em larga escala com o Hive.