[22届校招交流/面经]高性能异构/编译优化/推理加速方向

22届硕士,正值秋招,想组一个今年目标高性能计算、异构计算(GPU/ASIC/DSP)、深度学习编译优化/推理加速引擎、AI芯片编译器工具链、深度学习框架、机器学习平台/系统、传统编译器...等类似岗位的校招微信群~

群的宗旨是:

  • 交流工作机会、职业发展
  • 共享面经(共同维护共享文档)

目前的应届就业形势大概分析:

  1. 硬件厂商:NV,INTEL
  2. 互联网:基本都有相关岗位,阿里、百度、字节、腾讯...旷视、商汤
    a. 算法部门做部署落地的
    b. 中台:阿里云、百度基础架构、美团机器学习平台、
    c. 框架、推理引擎(云侧端侧)
  3. AI芯片/GPGPU硬件厂:寒武纪、地平线、燧原、海思昇腾、展锐、昆仑、平头哥、摩尔线程、希姆计算、大疆
  4. 自动驾驶(高性能计算)
  5. ...

引流关键词:

  • 高性能计算、人工智能、ml sys、CPU/GPU/intel PMEM/RDMA、高性能计算加速,编译优化、arm,x86,risc-v、性能调优、并行计算、分布式系统、异构计算,体系结构和性能优化、软硬件协同设计、人工智能芯片、AI芯片编译器工具链、
  • Graphcore,Habana,华为昇腾,寒武纪,燧原,比特大陆,摩尔线程
  • 模型适配,调优,训练平台,推理引擎
  • 深度学习编译器:TVM, MLIR, XLA, Halide, GLOW, Pytorch JIT,
  • polyhedral,
  • Pytorch, PaddlePaddle, TensorFlow, Caffe, MXNet, MindSpore...
  • cuBlas, cuBlasLt, cuDNN, TensorRT,PTX, SASS, OpenCL, ARM NEON, OneDNN
  • Compiler, LLVM
  • ...

欢迎:22届求职方向match的同学私聊拉群
HR勿扰~

灵感来源:上一届的相同方向的一个群

#秋招#
全部评论
求拉
1 回复 分享
发布于 2022-03-07 16:07
求拉群,谢谢🙏
1 回复 分享
发布于 2021-12-21 15:14
我是去年应届生,现在在燧原的软件部这边工作,感觉燧原也不错,对软件硬件都很重视,公司氛围也很好(PS如果想要内推的话可以戳我)
1 回复 分享
发布于 2021-09-10 16:44
楼主求拉群
1 回复 分享
发布于 2021-09-10 14:03
百度OC,求拉群
1 回复 分享
发布于 2021-09-09 00:51
求拉群
1 回复 分享
发布于 2021-09-08 00:57
求拉
1 回复 分享
发布于 2021-09-06 20:53
求拉
1 回复 分享
发布于 2021-09-06 20:34
求拉群 谢谢
1 回复 分享
发布于 2021-09-05 23:35
求拉群😁
1 回复 分享
发布于 2021-09-05 22:49
求拉
1 回复 分享
发布于 2021-09-04 16:39
求拉
1 回复 分享
发布于 2021-09-04 08:34
求拉
1 回复 分享
发布于 2021-09-01 22:34
求拉
1 回复 分享
发布于 2021-08-31 09:25
求拉一下
1 回复 分享
发布于 2021-08-31 08:03
求拉群😂😂
1 回复 分享
发布于 2021-08-31 01:17
求拉啊
1 回复 分享
发布于 2021-08-28 22:23
求拉
1 回复 分享
发布于 2021-08-27 06:38
大哥,我有相关异构芯片相关经验,麻烦拉一把。
1 回复 分享
发布于 2021-08-26 15:25
求拉
1 回复 分享
发布于 2021-08-26 10:03

相关推荐

1.请详细描述你在简历中提到的AI相关项目中,负责的主要模块和核心技术贡献。2.在设计一个高吞吐、低延迟的模型推理服务时,你会重点考虑哪些架构层面和工程层面的问题?3.请解释C++程序内存中栈(stack)、堆(heap)和静态/全局存储区的特点与主要区别。4.在C++中,new/delete`与'malloc/free`的主要区别是什么?为什么在C++中通常推荐使用前者?5.请解释深拷贝和浅拷贝的概念,并说明在什么情况下必须使用深拷贝。6.请阐述C++中'std:unique_ptr、'std..shared_ptr和'std:weak_ptr的设计意图、使用场景及相互区别。7.虚函数表(vtable)是如何实现运行时多态的?虚函数与纯虚函数(抽象类)在语义和用法上有何不同?8.什么是内存对齐?编译器对结构体进行内存对齐的主要规则是什么?请计算一个给定结构体(包含不同类型成员)在特定平台下的sizeof大小。9.请解释C++11中右值引用(&&)和移动语义(move semantics)的概念,并说明它们如何用于实现高效的数据转移(如std.:.vector的push_back)。110.简述CUDA的SlIMT(单指令多线程)编程模型,描述thread、block、grid的层次关系。11.在CUDA内核中,一个线程的局部变量通常存储在何处?这与寄存器的分配有何关系?12.在CUDA优化中,如何使用共享内存(Shared Memory)来减少对全局内存的重复访问?请举一个简单的例子(如矩阵乘法中的分块)。13.什么是warp shuffle指令?它在warp内部的数据交换和规约操作中有什么优势?14.解释在CUDA中使用float4或int4等向量化加载/存储指令进行合并访存的原理和性能收益。15.什么是共享内存的bankconflict?它是如何产生的?请举例说明。16.如何通过数据填充(padding)或其他内存布局调整技术来避免或减轻共享内存访问中的bankconflict?17.解释CPU缓存的工作原理,包括时间局部性、空间局部性的概念,以及常见的缓存替换策略18.编程题:实现一个算法,在一个包含大量整数的数据流中,实时找出出现频率最高的前K个元素。请描述你的思路(哈希表+最小堆)并分析时间复杂度。
查看18道真题和解析
点赞 评论 收藏
分享
评论
41
202
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务