NeMo Curator数据清洗

12小时前发布 0 00

技能简介NeMo Curator专为高质量大模型训练数据设计,利用GPU并行加速文本、图像、视频、音频的预处理流程。集成模糊去重、语义聚类、敏感信息检测等模块,帮助企业从海量原始数据中提炼合规可用的训练语料。能做什么整理模型调用与提示流程沉淀可复用的智能体能力输出可接入业务的执行方案使用说明明确模型目标与输入边界。配置提示流程和调用参数...

收录时间:
2026-03-06
NeMo Curator数据清洗NeMo Curator数据清洗
NeMo Curator数据清洗

技能简介

NeMo Curator专为高质量大模型训练数据设计,利用GPU并行加速文本、图像、视频、音频的预处理流程。集成模糊去重、语义聚类、敏感信息检测等模块,帮助企业从海量原始数据中提炼合规可用的训练语料。

能做什么

  • 整理模型调用与提示流程
  • 沉淀可复用的智能体能力
  • 输出可接入业务的执行方案

使用说明

  • 明确模型目标与输入边界。
  • 配置提示流程和调用参数。
  • 检查输出质量并做人工复核。

uv pip install "nemo-curator[text_cuda12]"

uv pip install "nemo-curator[all_cuda12]"

英文名

nemo-curator

输入与输出

见下方输入与输出表格。

输入输出
创意描述或视觉需求;尺寸、风格和品牌约束;原始素材或参考样例图像/动图/视频结果;可复用的生成步骤;后续修改所需素材说明

 

风险提示

  • 涉及外部平台接口、账号或权限时,先确认授权边界与数据访问范围。
  • 自动生成或自动执行结果应保留人工复核,避免直接替代最终业务判断。
  • 若处理内部资料、客户信息或经营数据,应先完成脱敏与权限控制。

来源信息

原始链接:https://github.com/Orchestra-Research/AI-Research-SKILLs
来源类型:GitHub 开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...