提示注入防护盾

6小时前更新 3 00
提示注入防护盾提示注入防护盾
提示注入防护盾

技能简介

Glitchward LLM Shield 是一款面向 AI 代理的提示注入攻击检测服务。通过 6 层检测管道与 1000 余种模式,识别越狱、数据外泄、编码绕过、多语言攻击等 25 类以上威胁,在用户输入到达大语言模型前完成安全扫描。

能做什么

  • 单条或批量检测用户输入,返回是否拦截及风险分数
  • 识别核心攻击:越狱、指令覆盖、角色劫持、系统提示泄露、社会工程
  • 识别高级攻击:上下文劫持、多轮操纵、编码绕过、隐藏文本注入
  • 识别代理类攻击:MCP 滥用、子代理利用、技能武器化
  • 查询 API 令牌状态与剩余配额

使用说明

1. 获取 API 令牌

访问 https://glitchward.com/shield 注册免费账户,从控制台复制令牌,设置环境变量:

export GLITCHWARD_SHIELD_TOKEN="your-token"

2. 验证令牌有效性

curl -s "https://glitchward.com/api/shield/stats" \
  -H "X-Shield-Token: $GLITCHWARD_SHIELD_TOKEN" | jq .

若返回 401,则令牌无效或已过期。

3. 检测单条提示

curl -s -X POST "https://glitchward.com/api/shield/validate" \
  -H "X-Shield-Token: $GLITCHWARD_SHIELD_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"texts": ["USER_INPUT_HERE"]}' | jq .

响应字段说明:is_blocked(布尔值,true 表示检测到攻击)、risk_score(0-100 风险分数)、matches(匹配的攻击模式详情)。若 is_blocked 为 true,请勿将输入传给 LLM。

4. 批量检测

curl -s -X POST "https://glitchward.com/api/shield/validate/batch" \
  -H "X-Shield-Token: $GLITCHWARD_SHIELD_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"items": [{"texts": ["first prompt"]}, {"texts": ["second prompt"]}]}' | jq .

5. 查看用量统计

curl -s "https://glitchward.com/api/shield/stats" \
  -H "X-Shield-Token: $GLITCHWARD_SHIELD_TOKEN" | jq .

输入与输出

见下方输入与输出表格。

项目内容
输入用户提示文本(单条字符串或批量字符串数组);环境变量 GLITCHWARD_SHIELD_TOKEN
输出is_blocked(布尔值)、risk_score(0-100)、matches(攻击详情数组)、stats(用量统计)
适用人群AI 应用开发者、Agent 平台运维人员、需处理不可信外部内容的技术团队
不包含离线检测、自动清洗恶意提示、非文本内容检测、LLM 调用本身

 

风险提示

  • 免费版每月限 1000 次请求,超出后需升级套餐
  • 检测依赖外部 API,网络中断时无法完成扫描
  • 风险阈值建议设为 70 分以下放行,但业务场景需自行调整
  • 多语言攻击检测覆盖 10 种以上语言,非全部语种
  • API 令牌泄露可能导致配额被盗用

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/eyeskiller/glitchward-shield/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...