第 17 题:模型量化(Quantization)及 INT8 / INT4
第 17 题:模型量化(Quantization)及 INT8 / INT4
题目
什么是模型量化(Quantization)?INT8 和 INT4 量化的实现方式有何不同?
一、什么是模型量化?
量化指把模型权重(和可选地激活)从 FP32/FP16 映射到低比特整数(如 INT8、INT4),从而减少显存占用、提高推理吞吐与能效,在可接受的精度损失下部署大模型。
二、INT8 量化常见实现
- 对称量化:
,
为 scale(通常由 tensor 的 abs max 或分位数定);反量化
。权重量化常用 per-tensor 或 per-channel scale。
- 激活:可与权重同用 INT8,或保留 FP16 激活、仅权重量化(W8A16)。
- 校准:用少量数据跑一遍前向,统计激活范围,再定 scale,减少分布偏移带来的误差。
- 实现:PyTorch
torch.quantization、ONNX 量化、TensorRT INT8 等;GPU 上 INT8 矩阵乘有硬件支持。
三、INT4 量化常见实现
- 更激进:4 bit 仅 16 个桶,对分布敏感,需更精细的 scale/zeropoint 或分组。
- 分组量化(Group Quantization):按组(如每 32 或 64 个权重量一组)共享 scale(和可选 zeropoint),组内用 4 bit 表示,平衡精度与压缩比。
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
Ai Agent:面试300问 文章被收录于专栏
《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。
