告诉你cuda共享内存的使用


想必大家都知道,cuda里面每一个block上有一块高速缓冲区,这就是提供给block里面各个线程使用的shared memory,那怎么使用这一块内存呢?


首先,shared memory分为固定分配方式和动态分配方式,就是上图的Static Shared Memory和Dynamic Shared Memory
1,固定分配
直接__shared__ int seme[5] ;这就是在每一个block里面分配5个int(20B)

__global__ void addKernel(int *c, const int *a)
{
   
	int i = threadIdx.x;
	 __shared__ int smem[5];
	smem[i] = a[i];
	__syncthreads();
	if (i == 0)	//0号线程做平方和
	{
   
		c[0] = 0;
		for (int d = 0; d<5; d++)
		{
   
			c[0] += smem[d] * smem[d];
		}
	}
	if (i == 1)//1号线程做累加
	{
   
		c[1] = 0;
		for (int d = 0; d<5; d++)
		{
   
			c[1] += smem[d];
		}
	}
	if (i == 2)	//2号线程做累乘
	{
   
		c[2] = 1;
		for (int d = 0; d<5; d++)
		{
   
			c[2] *= smem[d];
		}
	}

}

调用,启动的时候,block个数1,所以shared memory使用20B

addKernel << <1,size, 0, 0 >> >(dev_c, dev_a);

通过nsight可以看出,使用了20B的共享内存,并且是Static的;

2,动态分配
没错,就是在block里面声明,前面加上extern;

__global__ void addKernel(int *c, const int *a)
{
   
	int i = threadIdx.x;
	 extern __shared__ int smem[];
	smem[i] = a[i];
	__syncthreads();
	if (i == 0)	//0号线程做平方和
	{
   
		c[0] = 0;
		for (int d = 0; d<5; d++)
		{
   
			c[0] += smem[d] * smem[d];
		}
	}
	if (i == 1)//1号线程做累加
	{
   
		c[1] = 0;
		for (int d = 0; d<5; d++)
		{
   
			c[1] += smem[d];
		}
	}
	if (i == 2)	//2号线程做累乘
	{
   
		c[2] = 1;
		for (int d = 0; d<5; d++)
		{
   
			c[2] *= smem[d];
		}
	}

}

那在哪里指定大小呢?
原来是启动核函数的时候指定的第三个参数,之前使用多个流的时候,第四个参数绑定流的序号,第三个参数总是设为0,现在终于明白它的含义了

addKernel << <1,size, size*sizeof(int), 0 >> >(dev_c, dev_a);//第三个参数是每个block共享内存的大小


这几天正在准备写一篇关于cuda流的使用,然后会加上一些自己的学习总结,年轻,干就完了,奥利干!

CSDN博客搬运 文章被收录于专栏

CSDN博客搬运

全部评论
可以,不错哦
点赞 回复 分享
发布于 2021-09-30 08:44

相关推荐

争当牛马还争不上
码农索隆:1.把简历改哈 2.猛投,狠投 3.把基础打牢 这样你在有机会的时候,才能抓住
点赞 评论 收藏
分享
屌丝逆袭咸鱼计划:心态摆好,man,晚点找早点找到最后都是为了提升自己好进正职,努力提升自己才是最关键的😤难道说现在找不到找的太晚了就炸了可以鸡鸡了吗😤早实习晚实习不都是为了以后多积累,大四学长有的秋招进的也不妨碍有的春招进,人生就这样
点赞 评论 收藏
分享
人力小鱼姐:实习经历没有什么含金量,咖啡店员迎宾这种就别写了,其他两段包装一下 想找人力相关的话,总结一下个人优势,结合校园经历里有相关性的部分,加一段自我评价
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务