Artigos

18.03.2025

3 minutos

Parquet, o formato colunar que está revolucionando o armazenamento e a análise de dados?

Sommaire

Décrivez votre problématique

Lorem ipsum dolor sit amet consectetur. Nisl sit varius id tincidunt aenean. Lorem amet enim mauris quam cursus tempor purus adipiscing.

Prendre rendez-vous

Por que existe o Ministério Público?

O formato Parquet foi criado para atender às necessidades de consultas frequentes no Hadoop (sucessor do Trevni). O formato colunar, como o Parquet, resolve algumas limitações dos chamados formatos de dados “tradicionais”, como CSV. Como formato de armazenamento baseado em colunas, o Parquet permite uma leitura mais eficiente dos dados quando somente colunas específicas são segmentadas, o que otimiza o desempenho das consultas analíticas.

Formato de linha versus formato de coluna: qual é a diferença?

— O formato de linha, como CSV, exige a leitura completa de cada linha para acessar uma coluna específica, causando perdas de tempo e desempenho.

— O formato de coluna, como o Parquet, permite acesso direto às colunas específicas, reduzindo assim o volume de dados digitalizados e melhorando a velocidade de processamento.

As vantagens do Parquet em comparação com o CSV

— Digitação de dados: o Parquet armazena os tipos de dados diretamente nos metadados, facilitando o gerenciamento de tipos

— Compressão de dados: suporta vários algoritmos (Snappy, Gzip, etc.), oferecendo considerável economia de espaço (redução de até 87% no armazenamento)

— Codificação de dados: use técnicas como a codificação de dicionário para otimizar o armazenamento de valores repetitivos.

— Leitura/gravação paralela: compatível com sistemas distribuídos como o Apache Spark, permitindo um processamento mais rápido de arquivos massivos.

— Metadados enriquecidos: o Parquet armazena estatísticas avançadas, permitindo otimizações durante as consultas.

Casos de uso reais com o AWS Athena

Durante testes comparativos no AWS Athena, a Parquet demonstrou:

— Economia de espaço: um conjunto de dados de 1 TB em CSV reduzido para 130 GB no Parquet, ou seja, ganho de 87%

— Melhoria da velocidade: a consulta SQL aumentou de 236 segundos (CSV) para 6,78 segundos (Parquet), 34 vezes mais rápido

— Redução de custos: de 5,75€ em CSV a 0,01€ em Parquet, graças à redução dos dados digitalizados. Um desconto de ~ 99%.

Fonte: https://www.linkedin.com/pulse/difference-between-parquet-csv-emad-yowakim/

Dica profissional: considere agregar/unir para minimizar o número de arquivos que não são muito grandes (< 1 GB)

Os limites do formato Parquet no aprendizado de máquina

— Não é adequado para dados não estruturados: o Parquet não é ideal para armazenar modelos de ML ou dados não estruturados (imagens, vídeos)

— Problemas com a gravação em massa: requer o carregamento de todos os dados na RAM antes da gravação, o que pode ser limitante para modelos grandes.

Alternativas modernas: Lance e Nimble

— Launch (LanceDB): oferece uma versão aprimorada do Parquet, eliminando grupos de linhas para um desempenho de leitura até 2.000 vezes melhor.

— Nimble (Meta): otimiza o formato ORC (alternativo ao Parquet) centralizando os metadados (rodapés em vez de cabeçalhos no Parquet) e alterando a forma como esses metadados são definidos, oferecendo ganhos na velocidade de acesso.

O formato Parquet é uma escolha essencial para armazenar dados analíticos, especialmente graças às suas vantagens em termos de compressão, digitação de dados e desempenho de SQL. No entanto, para casos de uso em aprendizado de máquina ou em dados não estruturados, novas alternativas, como Lance e Nimble, estão surgindo, oferecendo melhor desempenho.

Vue aérienne d'un marais avec de petits cours d'eau sinueux traversant des zones de végétation brune et des berges sableuses.

contato

Vos données sont-elles prêtes pour l'IA ?

Un échange de 30 minutes avec l'un de nos experts pour évaluer votre maturité Data et identifier les premières actions.

Réserver un diagnostic

Parquet, o formato colunar que está revolucionando o armazenamento e a análise de dados?

Décrivez votre problématique

Por que existe o Ministério Público?

Formato de linha versus formato de coluna: qual é a diferença?

As vantagens do Parquet em comparação com o CSV

Casos de uso reais com o AWS Athena

Os limites do formato Parquet no aprendizado de máquina

Alternativas modernas: Lance e Nimble

Autres articles

Algumas dicas para fazer com que seus IDEs da JetBrains tenham uma ótima aparência!

Uma técnica para manter uma ramificação do Git durante uma solicitação de pull/merge

MLOps: Por que o rastreamento de dados e modelos de experimentos é importante? Como ferramentas como DVC e MLflow podem resolver esse desafio?

contato