计算机视觉工程

4小时前更新 1 00

目标检测与图像分割技

收录时间：

2026-02-26

手机查看

计算机视觉工程

技能简介

本技能覆盖计算机视觉工程全流程，包括目标检测、实例分割、语义分割及视觉AI系统生产部署。支持CNN与Vision Transformer架构，涵盖YOLO系列、Faster R-CNN、DETR等检测模型，以及Mask R-CNN、SAM等分割方案。

业务背景

本技能面向需要视觉智能的业务场景，帮助团队快速构建目标检测与图像分割能力。无论是产线质检、安防监控还是医疗影像分析，均可通过标准化流程完成模型训练与部署，降低AI工程门槛，缩短从实验到生产的周期。

落地案例：某制造企业需自动识别产品表面缺陷。业务人员提供瑕疵样本图片及标注数据，选择YOLOv8架构启动训练，获得检测模型后导出TensorRT格式，部署至工控机实现毫秒级实时质检。系统输出缺陷位置坐标与置信度，同步生成每日检测统计报告供质量部门追溯。

能做什么

构建目标检测流水线，支持实时与高精度场景
训练自定义检测与分割模型
优化模型推理性能，导出ONNX/TensorRT格式
部署至云端GPU或边缘设备
处理视频分析与3D视觉任务

使用说明

安装依赖

# 基础环境
pip install torch torchvision ultralytics opencv-python

# 可选框架
pip install detectron2 mmdetection mmsegmentation
pip install onnx onnxruntime tensorrt openvino

快速开始

生成训练配置：python scripts/vision_model_trainer.py models/ --task detection --arch yolov8
分析优化机会：python scripts/inference_optimizer.py model.pt --target onnx --benchmark
构建数据流水线：python scripts/dataset_pipeline_builder.py images/ --format coco --augment

训练流程

定义检测需求（目标类别、实时性、部署环境）
选择架构：实时选YOLOv8/v11，高精度选Faster R-CNN，小目标选+SAHI/FPN
准备COCO格式数据集并划分训练/验证/测试集
执行训练：yolo detect train data=data.yaml model=yolov8m.pt epochs=100 imgsz=640
验证评估，导出最优模型

输入与输出

见下方输入与输出表格。

项目	内容
输入	原始图像/视频；标注数据（COCO/VOC/YOLO格式）；检测需求规格（目标类别、FPS、部署环境）；预训练权重（可选）
输出	训练好的模型权重；优化后的推理引擎（ONNX/TensorRT）；检测结果（边界框、掩膜、置信度）；评估指标报告
适用人群	计算机视觉工程师、AI算法工程师、视觉系统后端开发者、检测分割方向研究者
不包含	通用机器学习理论教学、非视觉深度学习任务、商业标注服务、硬件采购建议

风险提示

训练需充足标注数据，小样本场景建议迁移学习
边缘部署需提前确认硬件算力与TensorRT版本兼容
视频分析任务注意帧率与延迟权衡
第三方框架（Detectron2/MMDetection）安装可能遇CUDA版本冲突

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/alirezarezvani/senior-computer-vision/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

计算机视觉工程

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

Morfeo视频风格规范

Grok图像生成

Sora视频生成

屏幕实时解说

美剧台词生成器

动画代码指南

影视截图与表情包生成

摄像头智能监控

暂无评论

标签云