Accueil
/
Blog
/
Parquet, o formato colunar que está revolucionando o armazenamento e a análise de dados?
Artigos
18.03.2025
3 minutos

Parquet, o formato colunar que está revolucionando o armazenamento e a análise de dados?

Por que existe o Ministério Público?

O formato Parquet foi criado para atender às necessidades de consultas frequentes no Hadoop (sucessor do Trevni). O formato colunar, como o Parquet, resolve algumas limitações dos chamados formatos de dados “tradicionais”, como CSV. Como formato de armazenamento baseado em colunas, o Parquet permite uma leitura mais eficiente dos dados quando somente colunas específicas são segmentadas, o que otimiza o desempenho das consultas analíticas.

Formato de linha versus formato de coluna: qual é a diferença?

— O formato de linha, como CSV, exige a leitura completa de cada linha para acessar uma coluna específica, causando perdas de tempo e desempenho.

— O formato de coluna, como o Parquet, permite acesso direto às colunas específicas, reduzindo assim o volume de dados digitalizados e melhorando a velocidade de processamento.

As vantagens do Parquet em comparação com o CSV

— Digitação de dados: o Parquet armazena os tipos de dados diretamente nos metadados, facilitando o gerenciamento de tipos

— Compressão de dados: suporta vários algoritmos (Snappy, Gzip, etc.), oferecendo considerável economia de espaço (redução de até 87% no armazenamento)

— Codificação de dados: use técnicas como a codificação de dicionário para otimizar o armazenamento de valores repetitivos.

— Leitura/gravação paralela: compatível com sistemas distribuídos como o Apache Spark, permitindo um processamento mais rápido de arquivos massivos.

— Metadados enriquecidos: o Parquet armazena estatísticas avançadas, permitindo otimizações durante as consultas.

Casos de uso reais com o AWS Athena

Durante testes comparativos no AWS Athena, a Parquet demonstrou:

— Economia de espaço: um conjunto de dados de 1 TB em CSV reduzido para 130 GB no Parquet, ou seja, ganho de 87%

— Melhoria da velocidade: a consulta SQL aumentou de 236 segundos (CSV) para 6,78 segundos (Parquet), 34 vezes mais rápido

— Redução de custos: de 5,75€ em CSV a 0,01€ em Parquet, graças à redução dos dados digitalizados. Um desconto de ~ 99%.

Fonte: https://www.linkedin.com/pulse/difference-between-parquet-csv-emad-yowakim/

Dica profissional: considere agregar/unir para minimizar o número de arquivos que não são muito grandes (< 1 GB)

Os limites do formato Parquet no aprendizado de máquina

— Não é adequado para dados não estruturados: o Parquet não é ideal para armazenar modelos de ML ou dados não estruturados (imagens, vídeos)

— Problemas com a gravação em massa: requer o carregamento de todos os dados na RAM antes da gravação, o que pode ser limitante para modelos grandes.

Alternativas modernas: Lance e Nimble

— Launch (LanceDB): oferece uma versão aprimorada do Parquet, eliminando grupos de linhas para um desempenho de leitura até 2.000 vezes melhor.

— Nimble (Meta): otimiza o formato ORC (alternativo ao Parquet) centralizando os metadados (rodapés em vez de cabeçalhos no Parquet) e alterando a forma como esses metadados são definidos, oferecendo ganhos na velocidade de acesso.

O formato Parquet é uma escolha essencial para armazenar dados analíticos, especialmente graças às suas vantagens em termos de compressão, digitação de dados e desempenho de SQL. No entanto, para casos de uso em aprendizado de máquina ou em dados não estruturados, novas alternativas, como Lance e Nimble, estão surgindo, oferecendo melhor desempenho.

Autres articles

Voir tout
Vue aérienne d'un marais avec de petits cours d'eau sinueux traversant des zones de végétation brune et des berges sableuses.

contato

Vos données sont-elles prêtes pour l'IA ?

Un échange de 30 minutes avec l'un de nos experts pour évaluer votre maturité Data et identifier les premières actions.

Réserver un diagnostic