传统cv想做多模态
目前是研一,马上研二。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
只做过传统的cv,用过YOLO,做过人体关键点检测,图像分割,图像分类之类的内容。
nlp只做过比较简单的,像用RNN做文本分类,文本生成。
没做过文生图和图生文以及图生图。
目前想找多模态的实习,不知道应该如何准备。
感谢大佬在评论区指点!
大概有个方向了,还有个小小的疑问,只学理论不跑代码能找到多模态的实习吗?
或者有没有合适的练手开源项目推荐。
全部评论
从clip到bilp系列 flamingo llava系列 cogvlm系列 internvl系列都看一遍
可以看一下Rocky撰写的《三年面试五年模拟》系列文章
秋招?
相关推荐
查看28道真题和解析 点赞 评论 收藏
分享
2025-12-26 20:01
门头沟学院 C工程师
mjasjon:因为客户端和客户端之间差距也很大 单纯做ui和魔改原生安卓架构完全一个天一个地 后者的难度不会比web后端低 其次做码农 去争哪个方向好跟争哪个语言没什么区别 反正多深耕就好了 做后端的 只会调接口和crud也一样是废了 点赞 评论 收藏
分享