Um Analista de Sistemas, que atua em uma agência de fomento ...

Próximas questões
Com base no mesmo assunto
Q4036220 Banco de Dados
Um Analista de Sistemas, que atua em uma agência de fomento vinculada ao setor governamental, está trabalhando com o Hadoop para processar e analisar grandes volumes de dados armazenados no HDFS (Hadoop Distributed File System). Ele precisa consultar esses dados de forma rápida e eficiente, utilizando uma linguagem semelhante ao SQL (Structured Query Language) para extrair informações agregadas e gerar relatórios. Considerando esse contexto, assinale a alternativa que apresenta duas ferramentas do Hadoop capazes de consultar grandes volumes de dados no HDFS, usando uma linguagem semelhante ao SQL (HiveQL/SQL):
Alternativas

Gabarito comentado

Confira o gabarito comentado por um dos nossos professores

Gabarito: A

Fundamento decisivo: A questão exigia identificar, entre as alternativas, a única dupla em que ambos os elementos são ferramentas de consulta sobre dados no HDFS com linguagem SQL-like.

Tema central: Consulta SQL no HDFS
Análise das alternativas
A
Certa
A alternativa A está correta porque reúne Apache Hive e Apache Impala, as duas ferramentas indicadas na base como mecanismos de consulta SQL sobre dados armazenados no HDFS.
B
Errada
Está errada porque Data Lake não é ferramenta de consulta SQL do Hadoop, mas conceito/arquitetura de armazenamento. Além disso, Flink é motor de processamento distribuído, não a resposta típica para consulta SQL sobre HDFS no contexto cobrado. A alternativa falha porque não traz duas ferramentas de consulta SQL sobre HDFS.
C
Errada
Está errada porque Storm é voltado a processamento de streams em tempo real e Kafka é plataforma de mensageria/streaming. Nenhum dos dois é ferramenta típica de consulta SQL sobre HDFS, que era o requisito específico da questão.
D
Errada
Está errada porque, embora Spark seja motor de processamento e possa ter módulo SQL, Storm não é ferramenta de consulta SQL sobre HDFS. O problema decisivo é que os dois elementos da alternativa não satisfazem simultaneamente o requisito funcional pedido.
E
Errada
Está errada porque Flink é motor de processamento distribuído e Kafka é plataforma de streaming/mensageria. A dupla não corresponde a duas ferramentas de consulta SQL sobre HDFS.
Pegadinha da questão
A confusão explorada foi trocar ferramentas de consulta SQL sobre HDFS por tecnologias populares de big data com outras funções, como processamento distribuído, streaming, mensageria ou até conceito de arquitetura, como Data Lake.
Dica para questões semelhantes
  • Quando a questão pedir consulta em HDFS com linguagem semelhante a SQL, verifique se a função principal da ferramenta é mecanismo de consulta, não apenas processamento ou streaming.
  • Exija que os dois itens da alternativa atendam ao requisito ao mesmo tempo; basta um deles não cumprir para eliminar a opção.
  • Não trate suporte eventual a SQL como equivalente ao papel central de ferramentas tipicamente voltadas à consulta SQL sobre HDFS.
  • Separe conceito/arquitetura de produto ou ferramenta: Data Lake não é ferramenta de consulta.

Clique para visualizar este gabarito

Visualize o gabarito desta questão clicando no botão abaixo

Comentários

Veja os comentários dos nossos alunos

Apache Hive: É a ferramenta de data warehouse mais madura do ecossistema. Ela utiliza uma linguagem similar ao SQL, chamada HiveQL, que transforma consultas em jobs MapReduce, Tez ou Spark. Ideal para ETL (Extract, Transform, Load) e processamento em batch (lote) de grandes volumes.

Apache Impala: Projetado para consultas interativas de baixa latência (tempo real), o Impala supera o Hive em velocidade ao executar consultas nativamente no HDFS, sem depender da estrutura do MapReduce. É a melhor escolha para relatórios rápidos e dashboards sobre dados no HDFS.

Contexto Geral

  • Analista de Sistemas: É uma pessoa que trabalha analisando, organizando e fazendo os sistemas de computador funcionarem melhor. No caso dele, ele mexe com dados.
  • Agência de fomento vinculada ao setor governamental: É um órgão do governo que dá dinheiro (empréstimos, financiamentos, bolsas) para projetos, empresas ou pessoas. Tipo BNDES, Finep, etc. Eles guardam muitos dados de quem pegou dinheiro, projetos aprovados, etc.
  • Grandes volumes de dados: São montes e montes de informação. Milhões ou bilhões de linhas. Coisas que um Excel normal não aguenta.

Ferramentas e Tecnologias Principais

  • Hadoop: É um programa grandão e famoso que serve para guardar e processar quantidades gigantes de dados. Ele espalha os dados em vários computadores ao mesmo tempo (como um time trabalhando junto). É tipo um caminhão baú para carregar toneladas de informação.
  • HDFS (Hadoop Distributed File System): É o "armário" onde o Hadoop guarda os dados. Imagina um armário que é dividido em várias casas e vários quartos. Se um quarto quebra, os dados continuam seguros nos outros. É onde tudo fica armazenado de forma segura e espalhada.
  • Consultar os dados: Significa fazer perguntas para os dados. Exemplo: “Qual o valor total de financiamentos por estado?” ou “Quantos projetos foram aprovados em 2025?”
  • Linguagem semelhante ao SQL (HiveQL): SQL é uma linguagem fácil para perguntar coisas em bancos de dados (tipo “mostre os clientes que gastaram mais de R$ 10 mil”). HiveQL é uma versão adaptada do SQL para usar com o Hadoop. O analista escreve quase igual ao SQL normal e a ferramenta cuida do resto.
  • Informações agregadas: São resumos. Em vez de ver linha por linha, ele quer somas, médias, contagens. Ex: total de dinheiro liberado, média por região, etc.
  • Gerar relatórios: Criar documentos ou tabelas bonitinhas com esses resumos para mostrar para o chefe ou para outros setores.

Ferramentas de forma Alternativa

Apache Hive

  • Imagina que você quer perguntar algo sobre os dados da empresa, mas não sabe falar a “língua” do computador. O Hive é tipo um tradutor: você escreve em um jeito parecido com SQL (uma linguagem de banco de dados), e ele transforma isso em tarefas pro Hadoop. É bom pra relatórios que não precisam sair na hora, tipo “quanto vendemos no mês passado?”.

Apache Impala

  • É o irmão mais rápido do Hive.
  • Também entende SQL, mas responde quase instantaneamente.
  • Serve pra quando você precisa de agilidade, tipo “qual foi a venda de hoje até agora?”.

Data Lake

  • Não é uma ferramenta, é um conceito.
  • Pensa num lago gigante onde você joga todo tipo de dado: tabelas, fotos, textos, vídeos.
  • Fica tudo guardado lá.
  • Ele não responde perguntas sozinho, mas é o lugar onde os dados ficam esperando pra serem usados.

Apache Flink

  • Ferramenta moderna pra lidar com dados que chegam ao vivo, em tempo real.
  • Exemplo: acompanhar o uso de um aplicativo enquanto as pessoas estão mexendo nele.
  • É como se fosse um processador “ao vivo”.

Apache Storm

  • Mais antigo que o Flink, mas ainda usado.
  • Também serve pra processar dados em tempo real, tipo monitorar menções no Twitter ou sensores de industria.
  • Não é feito pra consultas tranquilas em dados já guardados.

Apache Kafka

  • Imagina um correio eletrônico superpoderoso.
  • Ele recebe dados que chegam o tempo todo, organiza e entrega de forma confiável pra outros sistemas.
  • É muito usado pra mover dados entre aplicações, mas não serve pra consultas SQL.

Apache Spark

  • Ferramenta super popular e moderna.
  • Processa grandes volumes de dados bem rápido, mais rápido que o Hadoop tradicional.
  • Tem o Spark SQL, que permite escrever consultas parecidas com SQL. Hoje é uma das mais usadas.

Resumindo:

  • Hive e Impala → fazem perguntas em SQL (Hive mais lento, Impala mais rápido).
  • Flink e Storm → cuidam de dados em tempo real.
  • Kafka → entrega dados de um lugar pro outro.
  • Spark → processa dados grandes e rápido.
  • Data Lake → é o “lago” onde você guarda tudo.

QUESTÃO

  • O que o problema está perguntando?

O analista trabalha com muitos dados guardados num sistema chamado HDFS (é tipo um armário gigante e espalhado em vários computadores).

Ele quer fazer consultas em velocidade nesses dados, tipo: Qual foi o total de empréstimos por mês?” ou “Quantos clientes por região?”

Ele precisa de ferramentas que permitam escrever comandos parecidos com SQL (aquele jeito fácil de perguntar coisas no banco de dados).

Agora vamos às alternativas:

Alternativa A - Apache Hive e Apache Impala (✅ Essa é a certa)

Apache Hive:

  • É como um tradutor.
  • Você escreve perguntas em um jeito parecido com SQL (bem fácil), e ele entende e busca as respostas dentro daquele armário gigante (HDFS). É bom para fazer relatórios e somas grandes.

Apache Impala:

  • É a versão em mais velocidade da mesma ideia.
  • Ele também entende SQL e busca as respostas bem mais rápido que o Hive, quase em tempo real.

Resumo da A: As duas foram feitas exatamente pra isso: facilitar a vida de quem quer consultar dados grandes usando linguagem parecida com SQL. É o par clássico nesse tipo de trabalho.

Alternativa B - Data Lake e Apache Flink

Data Lake:

  • Não é uma ferramenta.
  • É só um nome pra um lugar grande onde se guarda todo tipo de dado (tipo um lago enorme de informação).
  • Não serve pra fazer as consultas.

Apache Flink:

  • É uma ferramenta boa pra processar dados que estão chegando ao vivo (ex: dados de um app em tempo real).
  • Não é o foco dela fazer relatórios com SQL em dados já guardados.

→ Errada pro caso dele.

Alternativa C - Apache Storm e Apache Kafka

Apache Storm:

  • Ferramenta pra processar dados que chegam o tempo todo (tipo notícias ou sensores).
  • Não é pra fazer consultas de boas em dados parados.

Apache Kafka:

  • É tipo um correio superpotente.
  • Ele transporta e organiza muitos dados chegando ao vivo, mas não faz você perguntar coisas com SQL.

→ São ferramentas pra dados em movimento, não pro que o analista precisa.

Alternativa D - Apache Spark e Apache Storm

Apache Spark:

  • É uma ferramenta bem moderna e poderosa.
  • Ela também permite fazer consultas parecidas com SQL e é bastante usada. Poderia até servir.

Apache Storm: Mesma coisa da C, é pra dados ao vivo, não combina bem.

→ Spark é bom, mas a dupla oficial e mais indicada pra esse cenário de "SQL no Hadoop" é Hive + Impala.

Alternativa E - Apache Flink e Apache Kafka

Mesma história da B e C: são ótimas pra dados em tempo real (coisas acontecendo agora), mas não são as melhores pra fazer relatórios e consultas tranquilas usando SQL em dados já guardados.

Resumo final bem simples:

O analista precisa de ferramentas que sejam faceis de perguntar coisas nos dados grandes usando um jeito parecido com SQL.

Hive e Impala são as que fazem exatamente isso. Por isso a letra A está certa.

Clique para visualizar este comentário

Visualize os comentários desta questão clicando no botão abaixo