Kubernetes集群管理

11分钟前更新 1 00
Kubernetes集群管理Kubernetes集群管理
Kubernetes集群管理

技能简介

面向Kubernetes与OpenShift集群的综合运维技能,覆盖日常操作、故障排查、资源配置、安全加固及GitOps实践。支持主流云平台托管集群(AKS/EKS/GKE/ARO/ROSA)的统一管理。

业务背景

企业运维团队可通过统一入口管理多云K8s集群,完成日常升级扩缩容、故障快速定位及安全加固,降低容器平台运维复杂度。GitOps能力支持声明式配置自动同步,提升交付效率与可审计性。

落地案例:某电商平台大促前,运维人员使用该工具对AKS生产集群执行节点扩容,通过Pod日志与事件分析快速定位支付服务延迟根因,并生成优化后的Deployment配置;同时启用ArgoCD实现配置变更的自动灰度发布,确保活动期间系统稳定性。

能做什么

  • 执行集群升级、节点维护、扩缩容及监控配置
  • 诊断Pod异常、网络故障、存储问题及性能瓶颈
  • 生成生产级Deployment、StatefulSet、Service、Ingress等资源配置
  • 实施RBAC权限控制、Pod安全标准、密钥管理及漏洞扫描
  • 搭建ArgoCD/Flux GitOps流水线,实现渐进式交付
  • 处理OpenShift特有资源:SCC、Route、Operator、BuildConfig

使用说明

安装要求:需预装kubectl/oc命令行工具,以及对应云平台的CLI(az/aws/gcloud)。Velero备份工具需单独安装:

velero install --provider ${PROVIDER} --bucket ${BUCKET} --secret-file ${CREDS}

基础用法

  1. 查看节点状态:kubectl get nodes -o wide
  2. 维护前驱逐节点:kubectl drain ${NODE} --ignore-daemonsets --delete-emptydir-data
  3. 查看Pod日志:kubectl logs ${POD} -c ${CONTAINER} --previous
  4. 运行健康检查脚本:bash scripts/cluster-health-check.sh

平台区分:标准K8s使用kubectl,OpenShift/ARO使用oc命令。

输入与输出

见下方输入与输出表格。

项目内容
输入集群标识、目标命名空间、节点/ Pod名称、容器镜像、资源配额、云平台认证信息
输出YAML资源配置、健康检查结果、备份/恢复状态、升级执行日志、事件追踪数据
适用人群Kubernetes运维人员、DevOps工程师、多云架构师、技术负责人
不包含虚拟机层面的系统维护、非K8s原生工作负载管理、商业技术支持服务

 

风险提示

  • 节点驱逐操作可能导致服务中断,需确认副本数充足
  • 集群升级前务必完成Velero备份
  • 直接修改生产环境配置可能触发意外滚动更新
  • RBAC变更错误可能导致权限提升或访问拒绝
  • GitOps自动同步配置前需在隔离环境验证

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/kcns008/kubernetes/SKILL.md
来源类型:开源技能仓库

数据统计

相关导航

暂无评论

none
暂无评论...