Bienvenido
/
blog
/
¿Parquet, el formato columnar que está revolucionando el almacenamiento y el análisis de datos?
Artículos
18.03.2025
3 min

¿Parquet, el formato columnar que está revolucionando el almacenamiento y el análisis de datos?

¿Por qué existe el Ministerio Público?

El formato Parquet se creó para satisfacer las necesidades de consultas frecuentes en Hadoop (sucesor de Trevni). El formato columnar, como Parquet, resuelve algunas limitaciones de los formatos de datos denominados «tradicionales», como el CSV. Como formato de almacenamiento basado en columnas, Parquet permite una lectura más eficiente de los datos cuando solo se seleccionan columnas específicas, lo que optimiza el rendimiento de las consultas analíticas.

Formato de línea frente a formato de columna: ¿Cuál es la diferencia?

— El formato de línea, como CSV, requiere la lectura completa de cada fila para acceder a una columna específica, lo que provoca pérdidas de tiempo y rendimiento.

— El formato de columna como Parquet permite el acceso directo a las columnas específicas, lo que reduce el volumen de datos escaneados y mejora la velocidad de procesamiento.

Las ventajas de Parquet en comparación con CSV

— Tipificación de datos: Parquet almacena los tipos de datos directamente en los metadatos, lo que facilita la gestión de los tipos

— Compresión de datos: admite múltiples algoritmos (Snappy, Gzip, etc.), lo que ofrece un ahorro de espacio considerable (hasta un 87% de reducción en el almacenamiento)

— Codificación de datos: utilice técnicas como la codificación de diccionarios para optimizar el almacenamiento de valores repetitivos.

— Lectura/escritura en paralelo: compatible con sistemas distribuidos como Apache Spark, lo que permite un procesamiento más rápido de archivos masivos.

— Metadatos enriquecidos: Parquet almacena estadísticas avanzadas que permiten optimizaciones durante las consultas.

Casos de uso reales con AWS Athena

Durante las pruebas comparativas en AWS Athena, Parquet demostró:

— Ahorro de espacio: un conjunto de datos de 1 TB en CSV reducido a 130 GB en Parquet, es decir, una ganancia del 87%

— Mejora de la velocidad: la consulta SQL aumentó de 236 segundos (CSV) a 6,78 segundos (Parquet), 34 veces más rápida

— Reducción de costes: de 5,75€ en CSV a 0,01€ en Parquet gracias a la reducción de los datos escaneados. Un descuento de ~ 99%.

Fuente: https://www.linkedin.com/pulse/difference-between-parquet-csv-emad-yowakim/

Consejo profesional: Considera la posibilidad de agregar o combinar para minimizar la cantidad de archivos que no sean demasiado grandes (menos de 1 GB)

Los límites del formato Parquet en el aprendizaje automático

— No es adecuado para datos no estructurados: Parquet no es ideal para almacenar modelos de aprendizaje automático o datos no estructurados (imágenes, vídeos)

— Problemas con la escritura masiva: es necesario cargar todos los datos en la RAM antes de escribirlos, lo que puede resultar limitante para los modelos grandes.

Alternativas modernas: Lance y Nimble

— Launch (LanceDB): ofrece una versión mejorada de Parquet, que elimina los grupos de filas para un rendimiento de lectura hasta 2000 veces mejor.

— Nimble (Meta): optimiza el formato ORC (alternativo a Parquet) centralizando los metadatos (pies de página en lugar de encabezados en Parquet) y cambiando la forma en que se definen estos metadatos, lo que mejora la velocidad de acceso.

El formato Parquet es una opción esencial para almacenar datos analíticos, especialmente gracias a sus ventajas en términos de compresión, escritura de datos y rendimiento de SQL. Sin embargo, para los casos de uso relacionados con el aprendizaje automático o con datos no estructurados, están surgiendo nuevas alternativas, como Lance y Nimble, que ofrecen un mejor rendimiento.

Otros artículos

Ver todos
Vue aérienne d'un marais avec de petits cours d'eau sinueux traversant des zones de végétation brune et des berges sableuses.

contacto

¿Están sus datos preparados para la IA?

Un intercambio de 30 minutos con uno de nuestros expertos para evaluar la madurez de sus datos e identificar las primeras acciones.

Reserva un diagnóstico