自我介绍,说一些做过的部署相关的项目项目询问,用了TensorRT量化,是PTQ量化吗?为什么要用tensorRT量化,项目有什么速度需求吗?CUDA加速图像预处理,具体的实现方法,用了什么优化手段吗?CUDA加速是自学的吗?可以举例子说一说你分析和优化算子的例子吗?(向量化读取没有加速,面试官说是内存对齐的原因)GUP的内存结构,l1 cacahe、共享内存、l2 cache介绍一下共享的内存怎么优化,bank conflict是什么意思?你对算法了解哪些?介绍一下ByteTrack的匹配过程?为什么选用RK3588芯片,说一说环境搭建和自己模型部署的过程?ARM相关的优化了解吗?聊一些实习规划?聊一些自己未来的职业规划?为什么想要做模型部署,有什么原因?手撕代码,只要说思路,CUDA实现100w的浮点数相加,怎么实现?反问:模型优化多一点还是写算子多一点?对我学习的一些建议,有哪些欠缺的知识?