资深数据工程师

19分钟前更新 1 00

构建可扩展数据管道与

收录时间:
2026-02-26
资深数据工程师资深数据工程师
资深数据工程师

技能简介

本技能面向生产级数据工程场景,覆盖从数据源接入到最终交付的全链路技术能力。核心能力包括:设计批处理与实时流式架构、编写高性能SQL与PySpark代码、使用dbt进行数据转换、通过Airflow实现工作流编排,以及建立数据质量监控体系。

业务背景

解决企业数据分散、口径不一的痛点,将多源异构数据统一纳管至标准化仓库。通过自动化管道减少人工运维成本,确保业务报表与决策看板的数据时效性和准确性,让分析师专注洞察而非清洗数据。

落地案例:某零售企业每日需汇总20+门店POS交易、库存及会员行为数据。工程师配置Kafka实时捕获订单流,Airflow定时触发Snowflake增量加载,dbt自动校验金额字段非空与日期新鲜度。财务部门次日晨会即可查看T+1全渠道营收报表,无需等待IT手工提数。

能做什么

  • 设计并落地PostgreSQL到Snowflake的增量ETL管道
  • 搭建基于Kafka的实时流数据处理链路
  • 构建星型模型或Data Vault数据仓库架构
  • 配置dbt数据质量测试与新鲜度监控
  • 诊断Spark作业性能瓶颈并输出优化建议
  • 制定Lambda/Kappa架构选型决策

使用说明

安装准备

当前技能为知识型配置,无需额外安装。使用时需确保环境已部署:

# 核心依赖(按需安装)
pip install apache-airflow dbt-core pyspark kafka-python

快速开始

  1. 激活技能后,描述你的数据源类型(如PostgreSQL、S3、Kafka)和目标系统
  2. 提供业务场景:批处理还是实时流、数据量级、延迟要求
  3. 获取生成的Airflow DAG配置或dbt模型代码
  4. 根据输出结果迭代调整调度策略与资源分配

典型调用示例

"设计一个从PostgreSQL抽取订单数据,用dbt转换后加载到Snowflake的每日增量管道"

输入与输出

见下方输入与输出表格。

项目内容
输入数据源类型、目标系统、处理模式、业务表清单、调度频率、技术栈现状
输出Airflow DAG代码、dbt模型SQL、架构选型建议、Spark优化方案、数据质量规则
适用人群数据工程师、BI工程师、数据架构师、后端转数据开发人员、技术团队
不包含云账号权限配置、K8s集群运维、机器学习代码、前端可视化、BI工具深度使用

 

风险提示

  • 生产环境执行前务必在开发环境验证DAG逻辑
  • 增量抽取需正确配置水位线字段,避免数据遗漏或重复
  • 大数据量场景下注意Spark分区数与内存分配的匹配
  • 实时流处理需评估消息积压时的背压策略

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/alirezarezvani/senior-data-engineer/SKILL.md
来源类型:GitHub开源技能库

数据统计

相关导航

暂无评论

none
暂无评论...