岗位关键词
岗位职责
负责在各种硬件加速平台上编写以及优化深度学习框架内相关的算子,包含卷积、 矩阵乘等,探索硬件加速相关的算子的优化以及实现。
岗位要求
1.熟悉GPU硬件, 熟悉gpu内核函数优化, 熟悉主流GPU开发语言CUDA(PTX, SASS)/OPENCL中的一种或者多种; 2.熟悉常用的卷积计算加速方法,如gemm、winograd算法等;熟悉cutlass等开源矩阵乘法的库优先。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报