Quando se trabalha com grandes conjuntos de dados
no Pandas, a eficiente alocação de memória torna-se crucial
para manter um bom desempenho e evitar o esgotamento
dos recursos do sistema. Dado este desafio, analise as
opções abaixo para otimizar o uso da memória ao manipular
grandes volumes de dados com Pandas.
I. Empregar categorias para dados textuais repetitivos ao
invés de strings.
II. Segmentar os dados em chunks menores durante a
leitura de arquivos grandes, utilizando o parâmetro
chunksize no read_csv.
III. Fazer uso intensivo de operações inplace.
Sobre as afirmativas acima, pode-se dizer que:

Question

Quando se trabalha com grandes conjuntos de dados
no Pandas, a eficiente alocação de memória torna-se crucial
para manter um bom desempenho e evitar o esgotamento
dos recursos do sistema. Dado este desafio, analise as
opções abaixo para otimizar o uso da memória ao manipular
grandes volumes de dados com Pandas.
I. Empregar categorias para dados textuais repetitivos ao
invés de strings.
II. Segmentar os dados em chunks menores durante a
leitura de arquivos grandes, utilizando o parâmetro
chunksize no read_csv.
III. Fazer uso intensivo de operações inplace.
Sobre as afirmativas acima, pode-se dizer que: Alternativa A: apenas I está correta.  Ou Alternativa B: apenas II está correta. Ou Alternativa C: apenas I e II estão corretas. Ou Alternativa D: apenas I e III estão corretas. Ou Alternativa E: todas estão corretas.

Qconcursos · Accepted Answer

Alternativa [E] todas estão corretas. Alternativa Correta: E - todas estão corretas.

Vamos analisar cada uma das opções listadas no enunciado para otimizar o uso de memória ao manipular grandes volumes de dados com o Pandas:

I. Empregar categorias para dados textuais repetitivos ao invés de strings.
Quando você utiliza o tipo de dados "categoria" no Pandas para dados textuais que se repetem, isso pode reduzir significativamente o uso de memória. Em vez de armazenar cada string repetida várias vezes, o Pandas armazena cada string única uma vez e usa um índice para referenciá-las. Essa abordagem é altamente eficiente em termos de memória. Portanto, a afirmativa I está correta.

II. Segmentar os dados em chunks menores durante a leitura de arquivos grandes, utilizando o parâmetro chunksize no read_csv.
Utilizar o parâmetro chunksize ao ler grandes arquivos CSV permite carregar os dados em partes menores, o que evita a sobrecarga de memória ao tentar carregar todo o arquivo de uma vez. Isso também facilita o processamento dos dados em segmentos menores, mantendo o uso de memória mais eficiente. Assim, a afirmativa II está correta.

III. Fazer uso intensivo de operações inplace.
Operações inplace podem ajudar a economizar memória ao evitar a criação de cópias de objetos DataFrame, realizando modificações diretamente nos objetos existentes. No entanto, o uso inplace deve ser cuidadoso, pois pode tornar o código menos legível e aumentar a chance de erros. Apesar disso, do ponto de vista de economia de memória, a afirmativa III é considerada correta.

Com base na análise acima, todas as afirmativas (I, II e III) estão corretas no contexto de otimização de memória ao manipular grandes conjuntos de dados com Pandas. Portanto, a alternativa correta é E - todas estão corretas.

Gostou do comentário? Deixe sua avaliação aqui embaixo!

🚀 Mais performance?

🚀 Mais performance?

Quando se trabalha com grandes conjuntos de dados no Pandas...

Gabarito comentado

Clique para visualizar este gabarito

Questões de assuntos semelhantes

Provas relacionadas