Morfeo视频风格规范
Remotion视频
本技能覆盖计算机视觉工程全流程,包括目标检测、实例分割、语义分割及视觉AI系统生产部署。支持CNN与Vision Transformer架构,涵盖YOLO系列、Faster R-CNN、DETR等检测模型,以及Mask R-CNN、SAM等分割方案。
本技能面向需要视觉智能的业务场景,帮助团队快速构建目标检测与图像分割能力。无论是产线质检、安防监控还是医疗影像分析,均可通过标准化流程完成模型训练与部署,降低AI工程门槛,缩短从实验到生产的周期。
落地案例:某制造企业需自动识别产品表面缺陷。业务人员提供瑕疵样本图片及标注数据,选择YOLOv8架构启动训练,获得检测模型后导出TensorRT格式,部署至工控机实现毫秒级实时质检。系统输出缺陷位置坐标与置信度,同步生成每日检测统计报告供质量部门追溯。
安装依赖
# 基础环境
pip install torch torchvision ultralytics opencv-python
# 可选框架
pip install detectron2 mmdetection mmsegmentation
pip install onnx onnxruntime tensorrt openvino
快速开始
python scripts/vision_model_trainer.py models/ --task detection --arch yolov8python scripts/inference_optimizer.py model.pt --target onnx --benchmarkpython scripts/dataset_pipeline_builder.py images/ --format coco --augment训练流程
yolo detect train data=data.yaml model=yolov8m.pt epochs=100 imgsz=640见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 原始图像/视频;标注数据(COCO/VOC/YOLO格式);检测需求规格(目标类别、FPS、部署环境);预训练权重(可选) |
| 输出 | 训练好的模型权重;优化后的推理引擎(ONNX/TensorRT);检测结果(边界框、掩膜、置信度);评估指标报告 |
| 适用人群 | 计算机视觉工程师、AI算法工程师、视觉系统后端开发者、检测分割方向研究者 |
| 不包含 | 通用机器学习理论教学、非视觉深度学习任务、商业标注服务、硬件采购建议 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/alirezarezvani/senior-computer-vision/SKILL.md
来源类型:GitHub仓库