不学无术的小废物

2019-10-18 15:08 西北工业大学 Java

关注

pytorch多GPU加速出错

这个错误花费了一天半左右的时间，心态差点蹦了，还好有神人指导，坚持下来了。

RuntimeError: CUDA out of memory. Tried to allocate 46.00 MiB (GPU 0; 10.76 GiB total capacity; 839.60 MiB already allocated; 24.56 MiB free; 44.40 MiB cached)

1.错误问题的解决思路
这个问题就是GPU内存不够用了。本人使用的是Linux，2080Ti的服务器，在做视频分类的任务，此时使用单GPU还是多GPU都显示出这个错误。
一开始使用nvidia-smi监控GPU发现显存的使用量很少但是依旧报出该错误，就思考是否是代码写的有bug，排除了数据和网络模型几乎所有的可能，依然没有找到解决方案。
后来，设置一部分数据，监控GPU，发现在使用GPU时，一个episode中数据加载到网络训练后，下一个episode的数据累加了，GPU显示一直在增加，但是GPU会增加到一个最大值然后保持不变（猜测是将所有数据全部加载了，因为做的是小样本前期训练数据并不是一次性加载的），会出现本文的错误，就是最大值超过了GPU的最大显存，后来设置让增加的最大值小于GPU显存极限，错误消失了。

2.pytorch多GPU加速的可能原理
同时，还发现多GPU加载数据时的可能性。pytorch使用DataParallel实现单机多GPU加速，会将模型复制到加速的GPU上，数据按照batch-size除以加速GPU数量，最后将加速的结果拼接在一起放到第一个GPU上面。实验中使用了两块GPU加速，同时，调用了两次dataloader，第一个dataloader中batch-size的大小设置为10，第二个设置为10，此时两块GPU会达到近似1:1的情况，不出出现本文的问题，当dataloader的batch-size的大小分别设置为5和15时，前一块GPU会比后一块GPU的数量大很多，以至于更快的达到显存的极限，出现了本文的问题。
我认为这两种情况的可能原因是，当加速数据可以平均分配时，会在多GPU合适的进行，但是无法分配时，可能更多的借助于第一块GPU，所以造成第一块更快的达到极限，更有可能显存崩掉。

以上仅是个人看法，如果大家有不同或者更好的见解，欢迎评论，借以学习。

全部评论

推荐最新楼层

05-01 17:57

南京邮电大学 Java

redis学习：延迟队列异步消息队列

redis延迟队列使用zset有序列表来实现 对于如加锁失败的线程 如果一直轮询会消耗资源 但如果使用sleep那么遇到死锁时就会彻底瘫痪 所以会使用延迟队列。当获取锁失败 会把消息序列序列化为字符串作为zset的value 把时间戳作为score （如time()+5 ）多个线程对延迟队列进行轮询：lua脚本（网络往返从两次变为一次 并且多线程情况下因为lua原子性不会出现多个线程查询但只有一个线程能执行的现象） 每次zrangebyscore取出范围为0到当前时间戳的第一个value 然后zrem删除（抢到了） 之后处理业务逻辑。消息队列：可以使用redis 的list作为消息队列 生产...

点赞评论收藏

分享

04-30 11:32

齐鲁工业大学 Java

这期的创作激励收益将全用于购买我的薯片。

很感谢各位观看，上期文章有两块钱的收益，看来大模型还是很不少人感兴趣的，今天继续写自己学习的心得了。那么首先各位要搞清楚大模型本质上分为两种，上期文章里面我写到了，有预训练模型和底层手搓论文模型两种，云服务方面但是实际上我们去使用的时候还是会出现本地内存不够用的情况，不管用那种，在下载模型去跑的时候因为内存不够所以电脑会卡死，那么想要去跑，就可以选择轻量化模型+云服务的方式（这里试了一下谷歌的colab可以免费试用GPU/TPU也可接入gemini去写代码），这个就是云计算的一种体现，它的代码全部在云上，同时代码执行速度远高于你的本地，另外也不管也可以去试试微软，阿里的云服务，也类似。分词器：...

牛客激励计划牛客创作赏金赛

点赞评论收藏

分享

03-29 18:50

武汉理工大学 Java

27届勇闯实习之被干碎

小厂面经，也是我的处女面（30min）1.自我介绍2.spring boot的自动装配原理（好多类和接口的单词都忘了全称是啥了，就说了记得的单词，流程应该说对了吧）3.有用过redis吗？主要是用在实现什么功能（说了技术派用redis的zset来实现排行榜）5.有了解过Redisson吗？讲一下对于分布式锁的了解以及在什么场景下应用（说了秒杀场景）6.对mysql有了解吗？包括它的索引优化和创建（把想起来的全说了）7.了解设计模式吗？比如单例模式，为什么要使用单例模式，它的优点是什么（昨天刚看的设计模式）8.工厂模式有了解吗？主要的使用场景是？（也是昨天刚看的）9.场景题：有7个服务器，需要在早上十点定时的向数据库中的用户表中的用户发短信，如果做到发送的消息不重复，且如果发送失败了需要知道是到哪个用户失败了，这样下次就直接从这个用户开始（我答了用spring task来实现定时，用分布式锁来保证只有一份服务器可以发送消息，用消息队列来存储消息，然后用消息确认机制来保证错误信息的记录，以及在数据库或者业务层面完成消息消费的幂等性）10.场景题：如果在系统启动的时间就将数据库的所有用户相关的信息都读到一个hashmap中（这个没啥思路，没答好）27届的投了一个星期终于有一个面试了，大部分公司都只招26的

inari233：已oc，拒了

查看9道真题和解析

点赞评论收藏

分享

03-08 17:15

深圳大学软件测试

聊了两句直接要加微信发offer，这才是老板直聘！！

问了什么时候能提前实习，就要加微信给发offer，乐。非本人，一个朋友的。

GGrain：如果所有面试都这么简单，就该警惕一下同事的专业性了

点赞评论收藏

分享

今天 11:07

华南理工大学后端

拼多多2025春招面经及内推

昨天，我有一个朋友总结了一下自己参加拼多多的面试过程。PDD的面试整体流程不太重，两轮技术面+1轮HR面，技术一面主要侧重八股文+项目，技术二面主要侧重场景题+设计。还有就是一些算法。首先说八股文吧，面试中问到的这些八股文包括RocketMQ、分布式锁、ThreadLocal这些我之前都背过，基本上没啥好说的。JVM堆栈这个刚开始是有点出乎我意料的，没想到问的这么简单。但是后面问了一个对象一定都在堆上吗， 这个幸好我前一天刚刚看过。要不然真就gg了。二面问的场景题比较多，但是也不是完全无迹可寻，其实主要就是一个TOP K问题，一个秒杀场景的问题【拼多多集团-PDD校园招聘】内推链接：https...

投递拼多多集团-PDD等公司10个岗位 >

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 摸鱼被leader发现了怎么办 #

43800次浏览 317人参与

# 找工作，行业重要还是岗位重要？ #

17105次浏览 289人参与

# 潍柴工作体验 #

19731次浏览 17人参与

# 来聊聊机械薪资天花板是哪家 #

112300次浏览 721人参与

# 你觉得通信/硬件有必要实习吗？ #

94542次浏览 893人参与

# 你最满意的offer薪资是哪家公司？ #

17975次浏览 119人参与

# 硬件兄弟们甩出你的华为奖状 #

95335次浏览 670人参与

# 金融财会交流会 #

100981次浏览 361人参与

# 机械人与华为的爱恨情仇 #

105499次浏览 923人参与

# 外包能不能当跳板？ #

25229次浏览 192人参与

# 24届硬件人与华为的爱恨情仇 #

120100次浏览 962人参与

# 运营面经 #

101220次浏览 1202人参与

# 机械人怎么评价今年的华为 #

190546次浏览 1502人参与

# 大疆求职进展汇总 #

471373次浏览 3178人参与

# 国企还是互联网，你怎么选？ #

126497次浏览 963人参与

# Offer比较，求稳定还是求发展 #

41593次浏览 227人参与

# 盲审过后你想做什么？ #

16057次浏览 121人参与

# 设计人如何选offer #

101181次浏览 697人参与

# 国企/银行/研究所公司爆料 #

123879次浏览 742人参与

# 机械专业只有考研才有出路吗 #

95390次浏览 850人参与

牛客网
牛客企业服务