首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
课程
专栏·文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
在线笔面试、雇主品牌宣传
登录
/
注册
进击的博仔
获赞
35
粉丝
90
关注
1
看过 TA
520
男
中国石油大学(北京)
2023
后端
IP属地:河南
暂未填写个人简介
私信
关注
拉黑
举报
举报
确定要拉黑进击的博仔吗?
发布(35)
刷题
进击的博仔
2022-08-16 16:46
后端
CUDA入门(二):数据并行执行模型
内置变量:内置变量的值一般都由运行时系统预初始化,例如 CUDA 的 kernel 函数中, gradDim,blockDim,blockIdx,threadIdx都是内置变量,它们的值由 CUDA 运行时系统预初始化,可以在 kernel 函数中引用。其他地方应避免使用这些变量。 1. CUDA的线程组织 上一节向量加法中的线程被组织成二级的层次结构:一个网络包含一个或更多的线程块,每块包含一个或更多的线程。一个块中所有线程的 blockId 相同,每个块中又可通过唯一的 threadIdx 访问唯一的线程。网络一般是由线程块组成的三维数组,线程块又是线程组成的三维数组。不需要的维度可以设为...
0
点赞
评论
收藏
转发
进击的博仔
2022-08-16 16:44
后端
CUDA入门:CUDA简介习题
1. 矩阵加法接受两个矩阵 B 和 C 产生输出矩阵 A。输出矩阵 A 的每个元素是输入矩阵 B 和 C 相应元素之和,即 A[i][j] = B[i][j] + C[i][j]。方便起见只考虑方阵,元素都是单精度浮点值。写一个矩阵加法 kernel 函数和一个 stub 函数,可以用如下 4 个参数调用:指向输出矩阵的指针、指向第一个输入矩阵的指针、指向第二个输入矩阵的指针和每个维度上的元素个数。根据如下说明编写: 主机存根函数为输入和输出矩阵分配内存、传输输入数据到设备上、启动 kernel 函数、将输出数据传输至主机以及回收为输入和输出矩阵分配的设备存储器。 ...
0
点赞
评论
收藏
转发
进击的博仔
2022-08-15 13:19
后端
CUDA 入门:CUDA简介
1. 数据并行性 数据并行性是一种属性,这种属性支持算数操作按照程序的数据结构同时安全的执行。CUDA设备通过采用大量的数据并行性的方式来加快应用程序的执行速度。 在并行编程中,数据并行并不是唯一一种广泛使用的并行性,任务并行性在并行编程中也有广泛的使用。任务并行性通常对应用进行任务分解得到。例如,对于向量加法和矩阵向量乘法的简单应用来说,每个操作都可以看做一个任务,如果这两个任务可以独立执行,那么就能得到任务并行性。 一般情况下,数据并行性是并行程序可拓展性地的主要来源。对于大型数据集很容易找到大量的数据并行性,以充分利用大规模并行处理器,随着每一代硬件提供更多执行单元,应用的...
0
点赞
评论
收藏
转发
进击的博仔
2022-08-15 12:33
后端
Linux(Ubuntu)新建用户只有一个$问题
前两天实验,新建了一个用户,出现了点问题,在此记录一下: sudo useradd -d /home/hadoop -m hadoop 然后su hadoop的时候只有一个$: 我尝试从root、home目录进去,都是一个$,跟老师发的实验文件中 hadoop@… 完全不一样。 然后搜了一下,找到个方法: 用root登录操作 查看/etc/passwd文件中新建用户的权限 有没有bash 例:我新建的就是 hadoop:X:1000:1000::/home/h...
0
点赞
评论
收藏
转发
进击的博仔
2022-08-15 12:17
后端
共享内存编程:OpenMP
共享内存编程:OpenMP(一) 最近在上并行程序设计,我们知道在顺序不影响结果的for循环结构前可以使用OpenMP中的: #pragma omp parallel [clause ...] if(scalar_expression) num_threads[integer] 来使用多线程进行加速 语句说明 pramga: 编译程序指令 omp: 用omp这个库来编译程序,需包含头文件omp.h,也可以选择其他库。 parallel for: 针对for的平行方式。 if(scalar_expression): 如果scalar_expression为true,则创...
0
点赞
评论
收藏
转发
1
2
3
工具箱
TA的圈子
暂未加入圈子
TA的圈子
TA的笔记
暂无笔记
TA的笔记
登录
0
天
已登录
0
天
连续登录
0
人
今日访客
牛客网
牛客企业服务