CSV 转 Parquet 在线工具 – 浏览器内文件转换

上传 .csv 文件
或拖放文件
  1. 点击上传区域,选择一个 .csv 文件,或直接拖拽到页面中。
  2. 等待工具解析 CSV 文件,在预览表格中查看前几行数据。
  3. 点击"下载 Parquet"即可保存转换结果。

帮助与说明

常见问题

CSV 文件在转换为 Parquet 时会被上传吗?展开
不会。本工具完全在浏览器中运行,通过 DuckDB-WASM 在本地解析并转换 CSV 文件,不会上传到任何服务器。
CSV 文件可以多大?展开
你可以转换合理大小的 CSV 文件,但超大数据集受限于浏览器的内存。对于数 GB 的文件,建议使用桌面工具或命令行工具。
使用的是什么压缩方式?展开
输出的 Parquet 文件通常默认使用 Snappy 或 ZSTD 压缩,具体取决于 DuckDB-WASM 的配置。

如何在线将 CSV 转为 Parquet

  1. 点击上传区域,选择一个 .csv 文件,或直接拖拽到页面中。
  2. 等待工具解析 CSV 文件,在预览表格中查看前几行数据。
  3. 点击"下载 Parquet"即可保存转换结果。

隐私说明

完整说明

CSV 转 Parquet 工具可以将 CSV 文件转换为 Parquet 格式,这是一种专为大数据分析优化的列式存储格式。

为什么要将 CSV 转换为 Parquet?

  • 更小的文件体积:Parquet 使用列式压缩,通常可减少 70-90% 的存储空间
  • 更快的查询速度:列式存储支持高效的列裁剪和谓词下推
  • 保留数据类型:数据类型会被自动推断并保存在 Parquet schema 中
  • 广泛的兼容性:Parquet 被 Apache Spark、Pandas、DuckDB 等众多工具支持

使用示例

CSV 转 Parquet 使用示例

实际案例

案例:优化数据管道存储

原始文件sales_data.csv(500MB,100 万行)

需求:降低存储成本,加速分析查询

操作步骤

  1. 上传 sales_data.csv 文件
  2. 预览数据验证正确性
  3. 点击"下载 Parquet"

结果

格式大小查询速度
CSV500MB基准
Parquet~80MB快 5-10 倍

Parquet 文件体积缩小 6 倍,由于列裁剪特性,查询速度显著提升。

案例:为 Apache Spark 准备数据

原始文件user_events.csv(每日从旧系统导出)

需求:加载到 Spark 进行批量处理

操作步骤

  1. 上传 CSV 文件
  2. 查看预览表格
  3. 下载 Parquet 文件
  4. 上传到 S3/HDFS 供 Spark 读取

结果:Spark 读取 Parquet 文件比 CSV 快得多,且自动推断 schema,支持列裁剪优化。