CSV数据处理管道

2小时前更新 2 00
CSV数据处理管道CSV数据处理管道
CSV数据处理管道

技能简介

csv-pipeline 是一个用于处理、转换、分析和报告 CSV、TSV 及 JSON 数据的工具集。通过命令行工具和 Python 脚本,完成数据过滤、去重、排序、分组聚合、多表关联等操作。

能做什么

  • 预览、统计和检查表格数据结构
  • 按条件过滤行数据,支持数值比较和模式匹配
  • 对数据进行排序、去重和格式转换
  • 计算分组聚合指标(求和、平均、计数、最值)
  • 多数据集的内连接关联
  • 生成汇总统计报告

使用说明

安装要求:需预先安装 Python 3,可选 uv 作为包管理器。

快速开始:

  1. 预览文件前5行:head -5 data.csv
  2. 统计行数(不含表头):tail -n +2 data.csv | wc -l
  3. 按列过滤(第3列大于100):awk -F',' 'NR==1 || $3 > 100' data.csv > filtered.csv
  4. Python 读取 CSV:import csv; list(csv.DictReader(open('data.csv')))
  5. 分组聚合:调用 aggregate(data, 'category', 'revenue', 'sum') 按类别汇总收入

输入与输出

见下方输入与输出表格。

项目内容
输入CSV、TSV、JSON、JSON Lines 格式文件;过滤条件;分组/聚合配置;关联键设置
输出处理后的表格文件(同格式或转换格式)、分组聚合统计结果、关联合并数据集
适用人群数据分析师、财务人员、运营人员、需要批量处理表格数据的开发者
不包含数据库直连查询、实时流处理、可视化图表、机器学习功能

 

风险提示

  • 大文件处理时需注意内存占用,建议分块读取
  • 编码问题可能导致中文乱码,建议统一使用 UTF-8
  • 数值列含空值时需先做清洗,避免类型转换失败
  • 多表关联时注意键值重复导致的笛卡尔积膨胀

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/gitgoodordietrying/csv-pipeline/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...