Convertir CSV a Parquet Online — Herramienta Gratis
Tienes un CSV. Necesitas un Parquet. Suena simple, pero las opciones habituales implican instalar Python, configurar pandas, lidiar con dependencias o levantar Spark para algo que debería tomar 30 segundos.
Hay una forma más directa: convertir CSV a Parquet en el navegador, sin instalar nada y sin que tus datos salgan de tu computadora. Pero la conversión es solo el primer paso — lo realmente útil es poder verificar, consultar y perfilar el resultado en el mismo lugar.
¿Por qué convertir CSV a Parquet?
Antes de ir al “cómo”, vale la pena entender el “por qué”. Si ya trabajas con CSV y todo funciona, ¿para qué cambiar?
Reducción de tamaño
Un archivo CSV de 500 MB puede quedar en 50-100 MB como Parquet. Esto es gracias a la compresión columnar: al agrupar valores del mismo tipo, los algoritmos de compresión son mucho más efectivos.
Menos tamaño significa:
- Menos costo de almacenamiento (especialmente en la nube).
- Transferencias más rápidas entre servicios.
- Menos uso de memoria al leer el archivo.
Consultas más rápidas
Si alguna vez has esperado minutos para que pandas lea un CSV grande, la diferencia con Parquet te va a sorprender. Las consultas analíticas pueden ser 10 a 100 veces más rápidas porque el motor solo lee las columnas que necesita.
Tipos de dato preservados
Con CSV, todo es texto. Cuando lo lees con pandas o cualquier otra herramienta, tiene que adivinar los tipos: ¿esto es un entero o un string? ¿Esta fecha está en formato americano o europeo?
Al convertir a Parquet, los tipos quedan definidos explícitamente. No más sorpresas cuando vuelvas a leer el archivo.
Compatibilidad con herramientas modernas
Parquet es el formato estándar en el ecosistema de datos moderno. Si eventualmente quieres cargar esos datos en Spark, BigQuery, Snowflake, Athena, DuckDB o cualquier data warehouse, Parquet es el formato que esperan.
Cómo convertir con Parquet Explorer: no solo conversión, sino un flujo completo
Parquet Explorer incluye conversión de formatos como parte de una plataforma completa para trabajar con Parquet. Usa DuckDB-WASM bajo el capó, así que todo es rápido y 100% local.
Paso a paso
- Abre parquetexplorer.com.
- Arrastra tu archivo a la interfaz. Soporta CSV, TSV, JSON y JSONL — no solo CSV.
- La herramienta detecta automáticamente el delimitador, los encabezados y los tipos de dato.
- Revisa el esquema inferido. El visor de esquema te muestra la estructura completa, incluyendo tipos anidados si los hay, en un árbol visual interactivo.
- Selecciona la compresión: Snappy, Zstd o Gzip según tus necesidades.
- Descarga el archivo Parquet resultante.
Pero aquí es donde la cosa se pone interesante. Una vez convertido, no tienes que ir a otra herramienta para verificar el resultado:
- Ejecuta consultas SQL directamente sobre el archivo convertido para validar los datos.
- Perfila las columnas con el data profiler: histogramas, distribución de valores, detección automática de tipos semánticos (emails, URLs, UUIDs, IPs, teléfonos) y un puntaje de calidad de datos.
- Inspecciona la metadata del Parquet generado: row groups, codecs de compresión, estadísticas min/max por columna.
- Si necesitas editar algo, puedes hacerlo inline — modificar celdas, agregar o eliminar filas y columnas — sin salir de la herramienta.
Todo el proceso ocurre en tu navegador. Los datos nunca se envían a ningún servidor.
Opciones de compresión
Al convertir a Parquet, puedes elegir entre varios algoritmos. Cada uno tiene sus ventajas:
- Snappy: muy rápida, compresión moderada. Es el valor por defecto más seguro y la mejor opción cuando la velocidad de lectura es prioridad.
- GZIP: más lenta, pero excelente ratio de compresión. Ideal para archivos históricos que se consultan poco.
- ZSTD: buen balance entre velocidad y tamaño. Mejor opción general si tu herramienta lo soporta.
Si no estás seguro, ve con Snappy o ZSTD. Parquet Explorer te deja elegir cualquiera de los tres al momento de la conversión.
Consideraciones al convertir
Más allá de CSV: formatos soportados
No siempre tus datos vienen en CSV. Parquet Explorer también convierte:
- TSV (archivos separados por tabulador).
- JSON (objetos JSON).
- JSONL (una línea por registro, muy común en logs y APIs).
Delimitadores y encabezados
No todos los CSV usan coma. En Latinoamérica es muy común el punto y coma (;) porque la coma es el separador decimal. También hay archivos con pipe (|) de sistemas legacy. Parquet Explorer detecta automáticamente el delimitador en la mayoría de los casos.
Si tu CSV no tiene fila de encabezado, la herramienta asigna nombres genéricos que puedes renombrar.
Codificación de caracteres
Si tu CSV tiene acentos, eñes u otros caracteres especiales, asegúrate de que esté codificado en UTF-8. Si viene en Latin-1 o Windows-1252, algunos caracteres pueden no interpretarse correctamente.
Archivos grandes
DuckDB-WASM en el navegador maneja archivos de cientos de megabytes sin problemas en máquinas modernas. Para archivos de varios gigabytes, DuckDB CLI desde la terminal es buena alternativa:
COPY (SELECT * FROM read_csv_auto('datos.csv'))
TO 'datos.parquet' (FORMAT PARQUET, COMPRESSION ZSTD);
Verificar la conversión: un paso que muchos se saltan
Después de convertir, es buena práctica verificar que el archivo resultante sea correcto. Con Parquet Explorer puedes hacer todo esto sin salir de la herramienta:
- Revisar el esquema: confirmar que los nombres de columnas y tipos sean los esperados usando el visor de esquema con su árbol de tipos.
- Validar el conteo: verificar que el número de filas coincida con el CSV original.
- Perfilar los datos: el data profiler te muestra distribuciones, detecta anomalías y calcula un puntaje de calidad por columna. Si la conversión introdujo algún problema, lo vas a ver aquí.
- Ejecutar queries de validación:
-- Verificar conteo de filas
SELECT COUNT(*) FROM archivo_convertido;
-- Buscar nulos inesperados
SELECT * FROM archivo_convertido WHERE columna_clave IS NULL;
-- Estadísticas básicas
SELECT MIN(valor), MAX(valor), AVG(valor) FROM archivo_convertido;
El historial de consultas guarda tus queries para que no tengas que reescribirlas.
Más allá de la conversión: crear y editar
A veces no tienes un archivo de origen — necesitas crear un Parquet nuevo para datos de prueba o un esquema de referencia. Parquet Explorer te permite crear archivos Parquet desde cero: defines el esquema, ingresas los datos y exportas. Y si necesitas corregir algo en un Parquet existente, puedes editar celdas inline, agregar o eliminar filas y columnas.
Para conversiones automatizadas o archivos de varios GB, DuckDB CLI (COPY ... TO ... FORMAT PARQUET) o Python con polars son buenas alternativas.
Conclusión
Convertir CSV a Parquet ya no es solo una operación de transformación de formato — es el punto de entrada a un flujo de trabajo completo. Con Parquet Explorer puedes convertir (CSV, TSV, JSON, JSONL), verificar el resultado con SQL y perfilado automático, editar si hace falta, y exportar en el formato que necesites. Todo desde el navegador, todo local, sin fricción.
Si todavía estás guardando tus datos analíticos en CSV, este es un buen momento para hacer la transición. Tu yo del futuro te lo va a agradecer cuando las consultas tarden segundos en lugar de minutos.