传统cv想做多模态
目前是研一,马上研二。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
全部评论
从clip到bilp系列 flamingo llava系列 cogvlm系列 internvl系列都看一遍
可以看一下Rocky撰写的《三年面试五年模拟》系列文章
秋招?
相关推荐
01-15 22:45
门头沟学院 Java 白火同学:1、将需求细分成若干个TODO;
2、按TODO去写业务代码,可以把Tab间隔拉长一点,防止自己写得还没ai生成得快;
3、写完一个TDOO后,TODO连着代码一块发给ai去优化迭代;
4、最后再把一整个需求代码发给ai优化。
点赞 评论 收藏
分享
查看28道真题和解析 点赞 评论 收藏
分享