Quando se trabalha com grandes conjuntos de dados no Pandas...
I. Empregar categorias para dados textuais repetitivos ao invés de strings.
II. Segmentar os dados em chunks menores durante a leitura de arquivos grandes, utilizando o parâmetro chunksize no read_csv.
III. Fazer uso intensivo de operações inplace.
Sobre as afirmativas acima, pode-se dizer que:
Gabarito comentado
Confira o gabarito comentado por um dos nossos professores
Alternativa Correta: E - todas estão corretas.
Vamos analisar cada uma das opções listadas no enunciado para otimizar o uso de memória ao manipular grandes volumes de dados com o Pandas:
I. Empregar categorias para dados textuais repetitivos ao invés de strings.
Quando você utiliza o tipo de dados "categoria" no Pandas para dados textuais que se repetem, isso pode reduzir significativamente o uso de memória. Em vez de armazenar cada string repetida várias vezes, o Pandas armazena cada string única uma vez e usa um índice para referenciá-las. Essa abordagem é altamente eficiente em termos de memória. Portanto, a afirmativa I está correta.
II. Segmentar os dados em chunks menores durante a leitura de arquivos grandes, utilizando o parâmetro chunksize no read_csv.
Utilizar o parâmetro chunksize ao ler grandes arquivos CSV permite carregar os dados em partes menores, o que evita a sobrecarga de memória ao tentar carregar todo o arquivo de uma vez. Isso também facilita o processamento dos dados em segmentos menores, mantendo o uso de memória mais eficiente. Assim, a afirmativa II está correta.
III. Fazer uso intensivo de operações inplace.
Operações inplace podem ajudar a economizar memória ao evitar a criação de cópias de objetos DataFrame, realizando modificações diretamente nos objetos existentes. No entanto, o uso inplace deve ser cuidadoso, pois pode tornar o código menos legível e aumentar a chance de erros. Apesar disso, do ponto de vista de economia de memória, a afirmativa III é considerada correta.
Com base na análise acima, todas as afirmativas (I, II e III) estão corretas no contexto de otimização de memória ao manipular grandes conjuntos de dados com Pandas. Portanto, a alternativa correta é E - todas estão corretas.
Gostou do comentário? Deixe sua avaliação aqui embaixo!
Clique para visualizar este gabarito
Visualize o gabarito desta questão clicando no botão abaixo