算法面试高频知识点：模型部署总结_牛客网

在学c语言的悲伤蛙很有气魄

门头沟学院市场发布于江苏

关注

@RockyDing：算法面试高频知识点：模型部署总结

----【模型部署】---- 【一】模型压缩的必要性与可行性？模型压缩是指对算法模型进行精简，进而得到一个轻量且性能相当的小模型，压缩后的模型具有更小的结构和更少的参数，可以有效降低计算和存储开销，便于部署在端侧设备中。随着AI技术的飞速发展，不管是移动端产品还是线上产品，进行AI赋能都成为了趋势。这种情况下，AI算法的实时性与减少内存占用都显得极为重要。AI模型的参数在一定程度上能够表达其复杂性，但并不是所有的参数都在模型中发挥作用，部分参数作用有限，表达冗余，甚至会降低模型的性能。【二】X86和ARM架构在深度学习侧的区别？ AI服务器与PC端一般都是使用X86架构，因为其高性能；AI端侧设备（手机/端侧盒子等）一般使用ARM架构，因为需要低功耗。 X86指令集中的指令是复杂的，一条很长指令就可以很多功能；而ARM指令集的指令是很精简的，需要几条精简的短指令完成很多功能。 X86的方向是高性能方向，因为它追求一条指令完成很多功能；而ARM的方向是面向低功耗，要求指令尽可能精简。【三】FP32，FP16以及Int8的区别？常规精度一般使用FP32（32位浮点，单精度）占用4个字节，共32位；低精度则使用FP16（半精度浮点）占用2个字节，共16位，INT8（8位的定点整数）八位整型，占用1个字节等。混合精度（Mixed precision）指使用FP32和FP16。 使用FP16 可以减少模型一半内存，但有些参数必须采用FP32才能保持模型性能。虽然INT8精度低，但是数据量小、能耗低，计算速度相对更快，更符合端侧运算的特点。不同精度进行量化的归程中，量化误差不可避免。在模型训练阶段，梯度的更新往往是很微小的，需要相对较高的精度，一般要用到FP32以上。在inference的阶段，精度要求没有那么高，一般F16或者INT8就足够了，精度影响不会很大。同时低精度的模型占用空间更小了，有利于部署在端侧设备中。【四】GPU显存占用和GPU利用率的定义 GPU在训练时有两个重要指标可以查看，即显存占用和GPU利用率。显存指的是GPU的空间，即内存大小。显存可以用来放模型，数据等。 GPU 利用率主要的统计方式为：在采样周期内，GPU 上有 kernel 执行的时间百分比。可以简单理解为GPU计算单元的使用率。【五】神经网络的显存占用分析 Float32 是在深度学习中最常用的数值类型，称为单精度浮点数，每一个单精度浮点数占用4Byte的显存。在整个神经网络训练周期中，在GPU上的显存占用主要包括：数据，模型参数，模型输出等。数据侧：举个🌰，一个323128128的四维矩阵，其占用的显存 = 323128128*4 /1000 / 1000 = 6.3M 模型侧：占用显存的层包括卷积层，全连接层，BN层，梯度，优化器的参数等。输出侧：占用的显存包括网络每一层计算出来的feature map以及对应的梯度等。【六】影响模型inference速度的因素？ FLOPs（模型总的加乘运算） MAC（内存访问成本）并行度（模型inference时操作的并行度越高，速度越快）计算平台（GPU，AI协处理器，CPU等）【七】为何在AI端侧设备一般不使用传统图像算法？ AI端侧设备多聚焦于深度学习算法模型的加速与赋能，而传统图像算法在没有加速算子赋能的情况下，在AI端侧设备无法发挥最优的性能。【八】减小模型内存占用有哪些办法？模型剪枝模型蒸馏模型量化模型结构调整【九】有哪些经典的轻量化网络？ SqueezeNet MobileNet ShuffleNet Xception GhostNet 【十】模型参数计算？首先，假设卷积核的尺寸是，有个特征图作为输入，每个输出的特征图大小为，输出为个特征图。由于模型参数量主要由卷积，全连接层，BatchNorm层等部分组成，我们以卷积的参数量为例进行参数量的计算分析：卷积核参数量：偏置参数量：总体参数量：【十一】模型FLOPs怎么算？同样，我们假设卷积核的尺寸是，有个特征图作为输入，每个输出的特征图大小为，输出为个特征图。由于在模型中卷积一般占计算量的比重是最高的，我们依旧以卷积的计算量为例进行分析： FLOPS（全大写）：是floating point operations per second的缩写，意指每秒浮点运算次数，理解为计算速度。是一个衡量硬件性能的指标。 FLOPs（s小写）：是floating point operations的缩写（s表示复数），意指浮点运算数，理解为计算量。可以用来衡量算法/模型的复杂度。针对模型的计算量应该指的是FLOPs。在上述情况下，卷积神经网络一次前向传播需要的乘法运算次数为：同时，所要进行的加法计算次数分为考虑偏置和不考虑偏置： (1)考虑偏置的情况：为了得到输出的特征图的一个未知的像素，我们需要进行$K\times KK\times K - 1$次加法，由于有C个通道，所以需要将结果乘以C，每个通道间的数要相加，所以需要C - 1次加法，最后再加上偏置的1次加法。所以总的加法计算量如下：所以总的卷积运算计算量（乘法+加法）： (2)不考虑偏置的情况：总的卷积计算量：

点赞 24

评论 3

全部评论

推荐最新楼层

02-01 00:20

科大讯飞_教育BG_后端开发(准入职员工)

2026春招启动

春招提前批已开的互联网大厂：OPPO(1.27)、网易游戏(1.12)、三七互娱(1.16)、小米(1.18)、百度(1.20)、大疆(1.22)、字节跳动(1.25)、华为(1.28)总的来说，目前来看很多企业开启春招的时间越来越早，我们的核心任务是优化简历、复盘秋招、锁定目标企业、心态放平、准备笔试面试题库！#今年春招是金一银二嘛？#

点赞评论收藏

分享

01-28 22:28

TP-LINK_软件算法工程师(准入职员工)

TP-Link内推，TP-Link内推码

🎈下面是面试过程 0.自我介绍+项目介绍 1.咱们家是哪里的 2.本科成绩怎么样 3.考研多少分（保研的） 4.是学硕对吧？奖学金拿过多少次？ 5.发过论文、专著之类的吗？（无） 6.有没有参加过什么比赛拿到省级以上奖励？ 7.有实习经历吗？ 8.创建线程都有哪些方式？ 9.JVM分为哪些区域？ 10.MySQL除了增删改查之外，还知道哪些关键字？ 11.having子句有什么作用？ 12.redis有哪些数据结构？ 13.用过消息中间件吗？知道哪些？ 14.这些消息队列使用场景有什么区别吗？ 15.设计模式知道哪些？ 16.你在学校最有成就感的一件事情是什么？ 17.现在有其他公司offe...

点赞评论收藏

分享

不愿透露姓名的神秘牛友

01-07 00:20

百度太有诚意了

双9硕，大模型算法，总包170w-200w。很有诚意，无签字费。已接。

Richard奇：今晚的梦有素材了

点赞评论收藏

分享

01-29 17:26

数字马力（长沙）信息技术有限公司_后端开发

简单了解一下A2UI

前情提要仅做分享科普，文章很多细节并未表达出来，有兴趣可以深入了解一下，目前还只是试用阶段，没有发布正式版本。自己也可以通过这个协议来学习 制作项目，有个人思考 还不用花大价钱购买哈哈现状现在我们日常熟悉的ai对话，都是以问答-生成文本内容来进行的。而现在各大企业内部应该也有不少ai平台，描述一下需求即可搭建出一个像模像样的网站。但这都是由ai来生成js、html、css等代码文件最终运行渲染出来的，实质上还是文本输出。A2UI是什么？而今天，聊到的A2UI协议 给我的认知带来一些颠覆。引用官网的简介： A2UI（Agent to UI）是一种用于代理驱动界面的声明式用户界面协议。人工智能代理...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 论秋招对个人心气的改变 #

3552次浏览 69人参与

# 牛客AI体验站 #

1812次浏览 63人参与

# 刚入职的你踩过哪些坑 #

2512次浏览 61人参与

# 在大厂上班是一种什么样的体验 #

2074次浏览 26人参与

# 程序员找工作至少要刷多少题？ #

4799次浏览 81人参与

# 关于春招/暑期实习，你想知道哪些信息？ #

2691次浏览 64人参与

# 一张图晒一下你的AI员工 #

1630次浏览 45人参与

# 为了减少AI幻觉，你注入过哪些设定？ #

1020次浏览 35人参与

# 我现在比当时_，你想录用我吗 #

2544次浏览 42人参与

# 程序员能干到多少岁？ #

3686次浏览 53人参与

# 产品人求职现状 #

320329次浏览 2422人参与

# AI Coding的使用心得 #

1470次浏览 38人参与

# 你的工资什么时候发？ #

55491次浏览 345人参与

# 实习，不懂就问 #

163038次浏览 1453人参与

# 你投了多少份简历了？ #

421519次浏览 3937人参与

# 金三银四，你有感觉到吗 #

679425次浏览 6047人参与

# 帆软软件工作体验 #

12478次浏览 67人参与

# 暑假倒计时，你都干了些啥？ #

40150次浏览 213人参与

# 晒晒你司的新年福利 #

2416次浏览 47人参与

# 软开人，秋招你打算投哪些公司呢 #

180009次浏览 1379人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务