卫星过境预测
预测卫星经过时间与位
本技能面向生产级数据工程场景,覆盖从数据源接入到最终交付的全链路技术能力。核心能力包括:设计批处理与实时流式架构、编写高性能SQL与PySpark代码、使用dbt进行数据转换、通过Airflow实现工作流编排,以及建立数据质量监控体系。
解决企业数据分散、口径不一的痛点,将多源异构数据统一纳管至标准化仓库。通过自动化管道减少人工运维成本,确保业务报表与决策看板的数据时效性和准确性,让分析师专注洞察而非清洗数据。
落地案例:某零售企业每日需汇总20+门店POS交易、库存及会员行为数据。工程师配置Kafka实时捕获订单流,Airflow定时触发Snowflake增量加载,dbt自动校验金额字段非空与日期新鲜度。财务部门次日晨会即可查看T+1全渠道营收报表,无需等待IT手工提数。
安装准备
当前技能为知识型配置,无需额外安装。使用时需确保环境已部署:
# 核心依赖(按需安装)
pip install apache-airflow dbt-core pyspark kafka-python
快速开始
典型调用示例
"设计一个从PostgreSQL抽取订单数据,用dbt转换后加载到Snowflake的每日增量管道"
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 数据源类型、目标系统、处理模式、业务表清单、调度频率、技术栈现状 |
| 输出 | Airflow DAG代码、dbt模型SQL、架构选型建议、Spark优化方案、数据质量规则 |
| 适用人群 | 数据工程师、BI工程师、数据架构师、后端转数据开发人员、技术团队 |
| 不包含 | 云账号权限配置、K8s集群运维、机器学习代码、前端可视化、BI工具深度使用 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/alirezarezvani/senior-data-engineer/SKILL.md
来源类型:GitHub开源技能库