HiveQL é uma linguagem de consulta, semelhante ao
SQL, para Hive. Uma das suas características interessantes
é ter uma extensão que permite distribuir consultas
entre reducers em um script do tipo map-reduce.
Se for necessário simultaneamente distribuir as consultas
e garantir a ordenação ou o agrupamento das chaves distribuídas,
deve-se usar a extensão

Question

HiveQL é uma linguagem de consulta, semelhante ao
SQL, para Hive. Uma das suas características interessantes
é ter uma extensão que permite distribuir consultas
entre reducers em um script do tipo map-reduce.
Se for necessário simultaneamente distribuir as consultas
e garantir a ordenação ou o agrupamento das chaves distribuídas,
deve-se usar a extensão Alternativa A: REDUCE BY Ou Alternativa B: USING Ou Alternativa C: CLUSTER BY Ou Alternativa D: GROUP BY Ou Alternativa E: DISTRIBUTE BY

Qconcursos · Accepted Answer

Alternativa [C] CLUSTER BY A alternativa correta é a C - CLUSTER BY.

Para compreender essa questão, é necessário entender que o HiveQL é uma linguagem de consulta do Apache Hive, que em muitos aspectos se assemelha ao SQL padrão. O Hive é uma infraestrutura de data warehouse construída sobre o Hadoop, permitindo a execução de operações de big data com a requisitação de SQL-like queries.

O CLUSTER BY é utilizado quando desejamos que a distribuição das consultas seja feita de forma que os dados com a mesma chave sejam encaminhados ao mesmo reducer e, além disso, que haja um pré-agrupamento ou ordenação dessas chaves. Quando você escolhe usar o CLUSTER BY, o Hive irá inserir os dados em múltiplos reducers de maneira distribuída e, mais importante, os dados serão processados em cada reducer de forma ordenada com base na coluna ou colunas especificadas na cláusula CLUSTER BY.

Este conceito é crucial quando trabalhamos com big data, pois otimiza a performance das consultas, permitindo que operações como agrupamentos e ordenações sejam feitas de maneira eficiente no contexto de processamento distribuído.

Portanto, a opção C - CLUSTER BY é a correta porque atende ao requisito de distribuir as consultas enquanto garante a ordenação ou agrupamento das chaves distribuídas entre os reducers, uma funcionalidade essencial para a realização de operações em larga escala com o Hive.

🚀 Mais performance?

🚀 Mais performance?

HiveQL é uma linguagem de consulta, semelhante ao SQL, para...

Gabarito comentado

Clique para visualizar este gabarito

Comentários

Clique para visualizar este comentário

Resumos relacionados

SGBD: Conceitos Fundamentais e Aplicações em Concursos Públicos

Questões de assuntos semelhantes

Provas relacionadas