首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
hacks
门头沟学院 算法工程师
关注
已关注
取消关注
@沉迷单车:
Diffusion Models从入门到精通:必读10篇经典
Diffusion Models专栏文章汇总:入门与实战前言:diffusion models是现在人工智能领域最火的方向之一,并引爆了AIGC方向,一大批创业公司随之诞生。笔者2021年6月开始研究diffusion,见证了扩散模型从无人问津到炙手可热的过程,这些篇经典论文我的专栏里都详细介绍过原理、复现过代码。这篇博客以时间发展顺序,串讲一下从入门到精(放)通(弃)的10篇必读的经典论文。目录1、DDPM奠基之作:《Denoising Diffusion Probabilistic Models》2、从DDPM到DDIM:《Denoising Diffusion Implicit Models》3、第一波高潮!首次击败GANs:《Diffusion Models Beat GANs on Image Synthesis》4、条件分类器技术进一步发展:《Classifier-Free Diffusion Guidance》5、Image-to-Image经典之作《Palette: Image-to-Image Diffusion Models》6、畅游多模态领域:GLIDE7、stable diffusion的原型:《High-Resolution Image Synthesis with Latent Diffusion Models》8、高调进军视频领域:《Video Diffusion Models》9、了不起的attention:《Prompt-to-Prompt Image Editing with Cross Attention Control》10、Unet已死,transformer当立!《Scalable Diffusion Models with Transformers》写在最后1、DDPM奠基之作:《Denoising Diffusion Probabilistic Models》推荐理由:本文是DDPM的奠基之作,是本领域最经典的论文之一。其实扩散模型并不是一个新的概念,这篇论文第一个给出了严谨的数学推导,可以复现的代码,完善了整个推理过程。后面diffusion models相关的论文基本都继承了前向加噪-反向降噪-训练这样的体系。所以强烈推荐初学者精读这篇论文!博客地址:Diffusion Models扩散模型与深度学习(数学原理和代码解读)代码地址:GitHub - lucidrains/denoising-diffusion-pytorch: Implementation of Denoising Diffusion Probabilistic Model in Pytorch2、从DDPM到DDIM:《Denoising Diffusion Implicit Models》推荐理由:作者使用简单的重参数化和混合学习目标来学习反向过程方差,该目标将VLB与DDPM的简化目标相结合。在混合目标下,所提出模型获得的对数似然比通过直接优化对数似然获得的对数似然更好,并发现后一个目标在训练期间具有更多的梯度噪声。最关键的是,原先的DDPM需要长达1000steps的推理步骤,而DDIM改善了反向扩散过程中的噪声水平,改变了递推公式,在更少的推理步骤(如100步)上取得了更好的结果。这项成果堪称革命性的,后面的大部分diffusion models论文(特别是运算量高的)都采用这一改进技术。博客地址:深入解读:从DDIM到Improved Denoising Diffusion Probabilistic Models代码地址:GitHub - ermongroup/ddim: Denoising Diffusion Implicit Models3、第一波高潮!首次击败GANs:《Diffusion Models Beat GANs on Image Synthesis》推荐理由:其实前面diffusion models也只是在生成领域小火了一把,并没有引起太多人的关注。主要原因有两点:一是扩散模型并没有太多数学理论上的创新;二是在生成指标上不如GANs。而这篇论文的出现把diffusion models的推向了第一波高潮!这篇论文有三个需要重点学习的地方:一是在Unet基础上有了很多改进的小trick(不亏是OpenAI的作品),改进之后的Unet更能适配噪声,因此指标上也进步了很多:如果看完这部分不妨反问自己这几个问题:模型结构是如何共享信息参数的?self-attention的作用是什么?预测噪声数据和预测真实数据有没有本质区别?为什么要分层设计?为什么一定要使用Unet结构?如果不清楚,欢迎看看我之前的博客:《为什么Diffusion Models钟爱U-net结构?》二是classifier-guidance的引入,这段推导用了二阶泰勒展开,非常精彩!之后的很多论文将类别引导扩展到一般的条件引导上,包括后来大火的GLIDE。这在latent diffusion models没出来之前,是一项非常成功、被广泛使用的条件引导技术!三是规范化的代码guided-diffusion。OpenAI的工匠精神,这份代码打磨得非常好,堪称工业级!后面很多顶会论文都是在这份代码的基础上改进的。如果想要学习diffusion models的代码,推荐以这份代码为基础。博客地址:击败GANs的新生成式模型:score-based model(diffusion model)原理、网络结构、应用、代码、实验、展望代码地址:GitHub - openai/guided-diffusion4、条件分类器技术进一步发展:《Classifier-Free Diffusion Guidance》推荐理由:我推荐的其他论文基本上都发表机器学习/计算机视觉顶会,而这篇文章虽然只发表于cvpr workshop,但是作者提出了一个新的分数估计函数:有条件分数函数和无条件分数函数的线性组合,平衡了有条件的分数函数和无条件分数函数。当然在论文中作者先论述了《Diffusion Models Beat GANs on Image Synthesis》中提出的分类器技术的问题:额外训练一个分类器,并且往往会造成多样性下降的特点。当然这个问题也是必然出现的,因为分类器就是在生成质量和生成多样性中间做平衡。之所以推荐这篇论文,因为这项技术被后来的论文广泛应用,简单有用,值得学习!博客地址:无分类器指导的Classifier-free Diffusion Models技术代码地址:https://github.com/lucidrains/classifier-free-guidance-pytorch5、Image-to-Image经典之作《Palette: Image-to-Image Diffusion Models》编辑推荐理由:我不确定Palette是不是第一个实现diffusion models 图像翻译工作的,但是一定是第一个火起来让很多圈内人关注的!Palette从pix2pix GANs中获取灵感,能够实现图像着色、图像修复、图像剪裁恢复、图像解压缩(超分)等等任务,最大的意义在于让更多人看到了diffusion models在图像翻译领域的潜力。从cvpr 2021开始,海量的相关论文被发表。博客地址:用Diffusion Models实现image-to-image转换代码地址:https://github.com/Janspiry/Palette-Image-to-Image-Diffusion-Models6、畅游多模态领域:GLIDE推荐理由:经典的三篇text-to-image的论文:DALLE 2、Imagen、GLIDE。在上半年各领风骚,让text-to-image方向成为diffusion中最受关注的领域。这三篇论文最先推荐的GLIDE的原因是它最先放出完成代码和预训练模型。预训练模型很重要!因为text-to-image领域都是大模型,不放出模型的话,我们这些非大组(指能分到40块显卡以上的)研究者根本无法在这基础上自己做迁移学习。GLIDE的核心跨模态引导公式来自《Diffusion Models Beat GANs on Image Synthesis》中的分类器引导,不同的是,这篇文章并没有给出严谨的证明过程。但是实验结果表明确实取得了很好的效果,后面的研究者从中获得启示,把其他的多模态信息按照这种方法注入,也取得了非常惊艳的结果。博客地址:2021年度最火Diffusion Models:用于图像编辑和text引导图像生成的GLIDE代码地址:https://github.com/openai/glide-text2im/tree/main/glide_text2im7、stable diffusion的原型:《High-Resolution Image Synthesis with Latent Diffusion Models》推荐理由:全体起立!终于讲到stable diffusion models了!这篇论文发表在cvpr 2022上,当时就受到了很多研究者们的关注,但是谁也没想到,一年后以latent diffusion models会孵化出stable diffusion这样彻底火出圈的作品。这篇论文有两个关键点值得关注:一是用encoder-decoder放缩到latent域上操作,又回到了生成领域最经典的结构,在latent域(即z)上操作,这种方法在vae上也算常用。二是cross-attention的结构,这种方法早在2020年的论文handwriting diffusion上就用过,但是当时并没有引起广泛的注意。在这之后cross-attention成为多模态的一种常用方法,成为新的常用条件扩散模型。博客地址:详细解读Latent Diffusion Models:原理和代码代码地址:https://github.com/CompVis/latent-diffusion8、高调进军视频领域:《Video Diffusion Models》编辑推荐理由:有位“诗人”曾经说过:站在风口上,猪都能飞。这篇论文出现的时候,diffusion models已经在图像、多模态、3D等领域大杀四方了。video生成很显然是下一个风口,这时候谷歌研究院的作品video diffusion models横空出世。这篇论文需要注意两个点:一是怎样引入时序信息的方法,很值得借鉴。二是梯度引导法是首次被提出,当时我写的博客中说如果好用肯定会很快流行。事实证明,谷歌出品必属精品,果然流行的一番!编辑博客地址:Video Diffusion Models:基于扩散模型的视频生成代码地址:https://github.com/lucidrains/video-diffusion-pytorch9、了不起的attention:《Prompt-to-Prompt Image Editing with Cross Attention Control》推荐理由:在今年的ICLR中,diffusion models超过图神经网络,成为投稿最多的主题。这几千篇投稿中,这篇论文取得了审稿人的一致accept好评。这篇文章沿用了latent diffusion models提出了cross-attention的结构,但是做了不少改进,特别需要注意的是可解释性问题,作者将QKV可视化,替换attention map达到控制的目的。这种控制技术相比于LDM更细腻,更有说服力。博客地址:【ICLR 2023】Diffusion Models扩散模型和Prompt Learning提示学习:prompt-to-prompt代码地址:https://github.com/bloc97/CrossAttentionControl10、Unet已死,transformer当立!《Scalable Diffusion Models with Transformers》推荐理由:Unet本来是发源于医疗图像分割的backbone,后来pix2pix GANs开始引入到生成领域,diffusion models的研究者们一直想替换掉这个backbone,用更原生的方法。在语音领域、时间序列领域,早在2020年就有论文引入transformer作为backbone。不过笔者尝试将其引入到二维图像生成上,并没有取得好的效果。最近的一项研究成果成功用改进版本的transformer替换掉Unet,并取得了更好的效果。笔者最近复现了代码,大为震撼!我觉得这项研究生过会很快流行,强烈推荐!博客地址:尚未写完,敬请期待哈哈代码地址:https://github.com/facebookresearch/DiT写在最后恭喜你坚持看到了这里!如果能读完这十篇论文、复现完代码还没有放弃的话,你已经是一名合格的diffusion er了;接下来就是征服深水区,迈向更长更远的道路吧!其实经典的论文还有很多,例如SDE相关的那条发展线,特别是songyang大佬的几篇论文,都值得反复品读;还有diffusion models在3D领域、语音领域等都表现得非常出色,其中有很多经典的论文没有列入;diffusion models的发表了很多加速采样方法的论文,我只列了几个后来被大家广泛使用的、有革命性成果的,这方面还有很多很精彩的论文本篇博客没有列入,略有遗憾!我的学识很有限,欢迎大佬们在评论区讨论!最后的最后,欢迎关注我diffusion models的专栏:Diffusion Models专栏文章汇总:入门与实战,更多精彩专栏见!祝大家都能在diffusion的探索道路上玩的开心!!
点赞 7
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
不愿透露姓名的神秘牛友
昨天 12:25
这是被字节拉黑了?
有垂直经历也是投就拒...抖音电商部门的要求大概是什么样子呀?之前也有三段互联网中大厂相关经历,也有世界五百强marketing和其他品牌商小厂这方面的经历。自己虽然没那么厉害,但是也不至于过不了初筛吧
投递字节跳动等公司8个岗位
点赞
评论
收藏
分享
昨天 15:14
苏州大学 产品经理
25届还没有找到工作,是不是废了
上周刚参加完毕业典礼,此刻的我,静静地坐在回家的火车上,一股酸涩涌上心头,泪水在眼眶里打转。大学这如梦似幻的四年时光,仿佛是一场绚丽的舞台剧,幕起幕落,如今谢幕了,我却像是从美梦中骤然惊醒的旅人。感觉自己像那四月里无根的柳絮,在命运的微风中漂泊无依,不知人生的下一个渡口在何方。211工科女,大学期间也有过学生干部社团经历,拿过奖学金,也有过两段实习经历。之前因为一心备战考研,我错过了秋招的黄金时期。现在求职投出一份又一份简历,参加一场又一场面试,却都如石沉大海,杳无音信。如今,终于毕业了,我也彻底迷失了方向,找不到前行的路标。未来的路,我应该何去何从呢?
应届生,你找到工作了吗
点赞
评论
收藏
分享
05-30 12:03
山西大学 C++
这是骗子吗
offer来了我跪着...:
不是骗子,等到测评那一步就知道为啥这么高工资了
点赞
评论
收藏
分享
06-09 20:53
已编辑
门头沟学院 Java
26届求求了🙏🥺
目标中小厂就行, boss200+沟通投出去 6份简历 1面试😫要了简历就没后续了,是不是简历写得不好,求大佬帮我看看简历提点建议🥺
sounfury:
找java工作的话把java内容占比写多点,你鸿蒙写太多了
点赞
评论
收藏
分享
07-04 15:22
天津理工大学 后端
实习
兄弟们,实习都是在接各种api,该怎么包装简历
仁者伍敌:
感觉我自己做小项目也是各种api啊,我要怎么包装简历
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
其实主包早就找到工作了,但还是每天都刷
1.4W
2
...
突然对上流社会祛魅了
7711
3
...
快star-x二面凉经
7016
4
...
恋爱四年没想到过自己会出轨
5945
5
...
小红书二面(第二天oc)
5157
6
...
没实习 == 秋招凉?
4736
7
...
腾讯的面试,拷问的太全面了
3737
8
...
记录一下0实习三天速通字节了....
3431
9
...
出轨你还有理了?
3129
10
...
我寻思压根没这回事,怎么就求职者包装算造假了,怎么不说公司也包装?
2972
创作者周榜
更多
正在热议
更多
#
计算机有哪些岗位值得去?
#
9189次浏览
87人参与
#
电网笔面经互助
#
35890次浏览
348人参与
#
实习生的蛐蛐区
#
28144次浏览
215人参与
#
听劝,这个简历怎么改
#
177264次浏览
1150人参与
#
应届生,你找到工作了吗
#
15218次浏览
127人参与
#
你找工作的时候用AI吗?
#
10830次浏览
103人参与
#
说说你知道的学历厂
#
19758次浏览
120人参与
#
总结:哪家公司面试体验感最好
#
51418次浏览
367人参与
#
学历贬值真的很严重吗?
#
21602次浏览
161人参与
#
面试尴尬现场
#
15398次浏览
101人参与
#
入职第一天,你准备什么时候下班
#
62787次浏览
380人参与
#
大学生该如何认清当下的就业环境?
#
88573次浏览
567人参与
#
下班后的时间你怎么安排
#
4920次浏览
57人参与
#
打工人的工作餐日常
#
48519次浏览
362人参与
#
哪些公司校招卡第一学历
#
61726次浏览
234人参与
#
哪一瞬间觉得自己长大了
#
5114次浏览
84人参与
#
社会教会你的第一课
#
21464次浏览
272人参与
#
你认为小厂实习有用吗?
#
7823次浏览
79人参与
#
你觉得第一学历对求职有影响吗?
#
92798次浏览
668人参与
#
研究所笔面经互助
#
75300次浏览
470人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务