传统cv想做多模态

目前是研一,马上研二。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
全部评论
从clip到bilp系列 flamingo llava系列 cogvlm系列 internvl系列都看一遍
8 回复 分享
发布于 2024-08-27 08:57 广东
可以看一下Rocky撰写的《三年面试五年模拟》系列文章
1 回复 分享
发布于 2024-08-28 10:09 浙江
秋招?
点赞 回复 分享
发布于 2024-08-25 11:07 北京

相关推荐

03-02 08:18
集美大学 Java
钱嘛数字而已:没有赛事奖项么?另外,项目经历字有点多哈,建议突出一下重点:用的什么技术,解决什么问题,达到什么效果。
大家都开始春招面试了吗
点赞 评论 收藏
分享
评论
2
19
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务