lz大约4-5年经验,目前算法/工程双背景,学历的话属于C9+海外Top30硕,跳槽看重的顺位为:     1. WLB, 最多接受10-8-5;     2. 有具体业务,不倾向于企业的AI Label 研究院等。嗯这年头实验室容易被嘎。    3. 范围锁定在中大厂不容易倒闭。通过以上条件就把阿里,拼多多,中国字节,小红书,得物等加班太猛的公司筛掉了。Offer 4家,薪资范围70w-1M:企鹅厂大模型,工程化方向,4轮面试。第一面 (30min):    推理引擎的加速Int8量化的方法有哪些?可否介绍下PTQ和QAT的区别?    Transformer的层融合是如何做到的?了解英伟达是如何做层融合的么?    训练一个encoder和decoder有什么区别?谈一谈为何decoder难以加速?第二面 (1h):    考了一道C++的题目,shared_ptr的一种无法调用析构函数的场景。    QAT量化中,round函数导数是多少?不可导的话是否研究过用某一个函数代替?    如何用CUDA实现一个简单的reduce函数?如果用half2的数据结构是否可以增加吞吐?    Pipeline并行训练,讲一下PipeDream和Gpipe的差别。第三面 (30min):    数据并行的训练方法与模型并行以及混合并行的区别?    Flash transformer里面的层融合做了哪些事情?    Cuda shared memory 如何使用?在不同的block之间可以共用shared memory么?    谈一谈GPT的训练过程,分为哪三步?(预训练,reward model training,PPO强化学习训练)第四面 (30min):    大boss 面,谈人生,谈理想海豚厂,算法方向,3轮面试第一面(40min):    Transformer encoder 如何训练?学习率如何调节?    评价模型的指标有哪些?PR-AUC和ROC-AUC的区别在哪?    如何做酒店的特征工程?    请你设计一个系统,能够给酒店推荐当晚的酒店价格使得酒店收益最大化。    请你设计一个系统,给酒店排序让平台收益最大化。第二面,第三面 (30min + 30min)      虽然是谈人生谈理想,印象比较深的一个问题是,如何管理一个12人以上的技术大团队,以及决定他们的绩效之类的,这是问老板的问题啊。开水厂,工程方向,3轮面试第一面(1h):    讲一下模型蒸馏中,temperature如何选择?    Cutlass与Cublas有什么区别?    GPU的使用中有哪些使用指标监测?当你发现用GPU跑算法的时候效率低下的时候,有哪些提高的方法?    写题:二叉树层序遍历,leetcode medium. https://leetcode.cn/problems/binary-tree-level-order-traversal/第二面(1h):    讲一下卷积神经网络如何与BatchNormalization 层融合?    在Transformer里面Residue Network与Layer Norm如何算子融合?    写题: 三数之和,leetcode medium: https://leetcode.cn/problems/1fGaJU/第三面(1h):    在混合精度训练中,发生溢出时该如何处理?    列举三种矩阵乘法加速的方法?只列举出来了两种。。。    写一个伪代码,如何实现数据并行训练?了解ASGD如何实现异步梯度更新么?    简单聊一下Winograd卷积是如何进行推理加速的?    写题:二分查找法。leetcode找不到原题。有一个升序数组,有可能为正也有可能为负,找到这个数组中距离0最近的数字并且返回。宇宙条某相对加班少的组,走回流通道,2面搞定,算法岗。第一面(30min)     最邻近向量搜索有哪些方法?     介绍Swin-Transformer与传统transformer的两大改进(hierarchical layers & shifted window.)  推荐一个视频讲得特别好:https://www.bilibili.com/video/BV13L4y1475U/?spm_id_from=333.337.search-card.all.click&vd_source=51891816787088bfa4034476ce50f05e    多头注意力与单头注意力的区别?    在做广告点击率模型之前,如何验证某个因子与广告点击率是相关的?    一个项目,如何衡量投入产出比?    第二面非技术。等消息或者挂:3家理想汽车, 工程岗位第一面(1h)    介绍一下图像检测的backbone有哪些?有尝试过使用transformer和Darknet做对比么?    PTQ和QAT最大的区别是什么?如何用KL散度去优化Int8量化?    谈一下如何使用混合精度量化?如何确立离群值和非离群值?    在Cuda算子中,假如每次处理33个数,会造成什么影响?(warp size = 32, 相当于要执行两个warp影响性能)    谈一谈Sparse transformer里面的longformer与big bird的差别。第二面(30min)    为什么layer-norm难以量化?有尝试过改进layer-norm的量化精度损失么    Cuda如何实现流水线作业?(Cuda Stream)    给了一段Cuda代码,问应该在什么地方加入sync操作以保证结果的正确性。(蛤,那段代码找不到了)等通知,还没挂。英伟达,深度学习岗第一面(1h)    Bert的预训练的两种方式?    写出Bert的伪代码。谈谈Bert相对于上一代transformer-encoder有哪些改进?    C++相关:        三种智能指针的区别?        Vector 和 list的区别?        const放在成员函数有什么作用?        Extern关键字的作用?         push_back和Emplace_Back的使用区别?    问答题:如果在单核机器上跑一段代码,用1个线程和用2个线程跑,2个线程还快一些,这是为什么呢?(CPU流水线原理)    Leetcode: 拓扑排序,DFS解决. 找了半天没找到原题,但是不难。以为答得挺好的,结果第二天收到拒信,不太清楚什么样的大佬可以面过啊。如果有面过的大佬可以私信教教我,还想再投其他岗位冲一把。特斯拉,NLP岗    第一面(1h), 说实话我一脸懵逼,算法嘛好像也不是算法,工程也不是工程。        用英文进行自我介绍。        Pandas中如何分类统计字符串?        numpy 如何实现在某个dim上面的加和?        Linux如何统计文件大小?        SQL中Left Join, Inner Join, Outer Join的差别?        简单聊一下Vim怎么使用?        在python中,"@"的作用是什么?    太奇怪了,面的都是啥玩意,完全没问NLP啊,transformer都没问。收到了拒信。总结今年的行情确实比去年好,心疼22年毕业的学弟学妹。感觉现在的市场行情有几个特点:1.给面试愿意给,但是要求比以往高了。前几年一个会调参,会用tensorflow的同学可能可以过大厂,今年需要懂业务,懂工程,又懂算法的同学才能通过面试,面的问题比之前要广很多。2.传统模型开发机会太少,大模型的机会多。有机会的朋友还是要往大模型上面转啊。3.外企面试的bar特别高。由于各种各样的原因,外企在中国HC少,导致了招聘难度变大,想做算法的同学很难找到一个坑。祝大家都拿到如意的offer!
点赞 38
评论 13
全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务