主动型智能体架构
让AI从被动响应转向
AWQ(Activation-aware Weight Quantization)通过分析激活模式保护关键权重,将LLM压缩至4位精度。相比GPTQ速度提升3倍,显存占用大幅降低,适合在有限GPU资源上部署大模型推理服务。
pip install autoawq
pip install autoawq[kernels]
awq-quantization
见下方输入与输出表格。
| 输入 | 输出 |
|---|---|
| 任务目标、输入资料和约束条件;需要处理的平台或对象;结果格式要求 | 结构化结果;执行建议或可交付产物;便于复核的后续说明 |
原始链接:https://github.com/Orchestra-Research/AI-Research-SKILLs
来源类型:GitHub 开源仓库