资深数据工程师

19分钟前更新 1 00

构建可扩展数据管道与

收录时间：

2026-02-26

手机查看

数据分析 # 数据质量

资深数据工程师

技能简介

本技能面向生产级数据工程场景，覆盖从数据源接入到最终交付的全链路技术能力。核心能力包括：设计批处理与实时流式架构、编写高性能SQL与PySpark代码、使用dbt进行数据转换、通过Airflow实现工作流编排，以及建立数据质量监控体系。

业务背景

解决企业数据分散、口径不一的痛点，将多源异构数据统一纳管至标准化仓库。通过自动化管道减少人工运维成本，确保业务报表与决策看板的数据时效性和准确性，让分析师专注洞察而非清洗数据。

落地案例：某零售企业每日需汇总20+门店POS交易、库存及会员行为数据。工程师配置Kafka实时捕获订单流，Airflow定时触发Snowflake增量加载，dbt自动校验金额字段非空与日期新鲜度。财务部门次日晨会即可查看T+1全渠道营收报表，无需等待IT手工提数。

能做什么

设计并落地PostgreSQL到Snowflake的增量ETL管道
搭建基于Kafka的实时流数据处理链路
构建星型模型或Data Vault数据仓库架构
配置dbt数据质量测试与新鲜度监控
诊断Spark作业性能瓶颈并输出优化建议
制定Lambda/Kappa架构选型决策

使用说明

安装准备

当前技能为知识型配置，无需额外安装。使用时需确保环境已部署：

# 核心依赖（按需安装）
pip install apache-airflow dbt-core pyspark kafka-python

快速开始

激活技能后，描述你的数据源类型（如PostgreSQL、S3、Kafka）和目标系统
提供业务场景：批处理还是实时流、数据量级、延迟要求
获取生成的Airflow DAG配置或dbt模型代码
根据输出结果迭代调整调度策略与资源分配

典型调用示例

"设计一个从PostgreSQL抽取订单数据，用dbt转换后加载到Snowflake的每日增量管道"

输入与输出

见下方输入与输出表格。

项目	内容
输入	数据源类型、目标系统、处理模式、业务表清单、调度频率、技术栈现状
输出	Airflow DAG代码、dbt模型SQL、架构选型建议、Spark优化方案、数据质量规则
适用人群	数据工程师、BI工程师、数据架构师、后端转数据开发人员、技术团队
不包含	云账号权限配置、K8s集群运维、机器学习代码、前端可视化、BI工具深度使用

风险提示

生产环境执行前务必在开发环境验证DAG逻辑
增量抽取需正确配置水位线字段，避免数据遗漏或重复
大数据量场景下注意Spark分区数与内存分配的匹配
实时流处理需评估消息积压时的背压策略

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/alirezarezvani/senior-data-engineer/SKILL.md
来源类型：GitHub开源技能库

数据统计

暂无评论

暂无评论...

资深数据工程师

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

卫星过境预测

信号盾分析师

Kradleverse会话清理

移除分析追踪

Clawver店铺分析

日志分析助手

轻量记账工具

产品战略工具包

暂无评论

标签云