第 17 题:模型量化(Quantization)及 INT8 / INT4 题目 什么是模型量化(Quantization)?INT8 和 INT4 量化的实现方式有何不同? 一、什么是模型量化? 量化指把模型权重(和可选地激活)从 FP32/FP16 映射到低比特整数(如 INT8、INT4),从而减少显存占用、提高推理吞吐与能效,在可接受的精度损失下部署大模型。 二、INT8 量化常见实现 对称量化:, 为 scale(通常由 tensor 的 abs max 或分位数定);反量化 。权重量化常用 per-tensor 或 per-channel scale。 激活:可与权重同用 IN...