第 17 题:模型量化(Quantization)及 INT8 / INT4

第 17 题:模型量化(Quantization)及 INT8 / INT4

题目

什么是模型量化(Quantization)?INT8 和 INT4 量化的实现方式有何不同?

一、什么是模型量化?

量化指把模型权重(和可选地激活)从 FP32/FP16 映射到低比特整数(如 INT8、INT4),从而减少显存占用、提高推理吞吐与能效,在可接受的精度损失下部署大模型。

二、INT8 量化常见实现

  • 对称量化 为 scale(通常由 tensor 的 abs max 或分位数定);反量化 。权重量化常用 per-tensor 或 per-channel scale。
  • 激活:可与权重同用 INT8,或保留 FP16 激活、仅权重量化(W8A16)。
  • 校准:用少量数据跑一遍前向,统计激活范围,再定 scale,减少分布偏移带来的误差。
  • 实现:PyTorch torch.quantization、ONNX 量化、TensorRT INT8 等;GPU 上 INT8 矩阵乘有硬件支持。

三、INT4 量化常见实现

  • 更激进:4 bit 仅 16 个桶,对分布敏感,需更精细的 scale/zeropoint 或分组。
  • 分组量化(Group Quantization):按组(如每 32 或 64 个权重量一组)共享 scale(和可选 zeropoint),组内用 4 bit 表示,平衡精度与压缩比。

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

Ai Agent:面试300问 文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造,适配校招、社招全场景,覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题,全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域,拆解考点底层逻辑,分享一线实战经验,助你一站式通关高薪面试。

全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务