科大讯飞秋招多模态算法一面
一、项目介绍+没有手撕?
项目介绍完直接开始面,没写代码
二、八股
1.介绍下Transformer在NLP和CV中的使用区别
2.什么是 CLIP 模型?它是如何做跨模态对齐的?
3.BLIP-2 中 Q-Former 的作用是什么?为什么要加一个Query Transformer?
4.Contrastive Learning 的 InfoNCE Loss 公式是什么?直观上是怎么工作的?
5.在多模态预训练中,如何处理图像分辨率过高的问题?关键优化手段有哪些?
6.LoRA 微调在多模态大模型中的应用有何特别之处?
7.什么是多模态对齐?它和 RLHF 的关系是怎样的?
8.介绍一下 LLaVA 架构的核心原理和主要创新点
9.在视频问答(VideoQA)场景下,时间信息是如何建模的?常见方法有哪些?
三、项目
1.多模态问答系统如何处理OCR和物体检测信息?这些特征在模型中怎么融合?
追问:如果 OCR 提取结果错误,会影响问答准确率吗?你如何降低影响?
2.你的医学影像 + 病历文本项目(这个项目我没用大模型),数据标注成本高,如何缓解?
追问:有用到合成数据/数据增强方法吗?效果如何?
3.在 LLaVA 的基础上加入分辨率自适应编码器,主要优化的是哪部分的瓶颈?推理速度提升多少?
项目介绍完直接开始面,没写代码
二、八股
1.介绍下Transformer在NLP和CV中的使用区别
2.什么是 CLIP 模型?它是如何做跨模态对齐的?
3.BLIP-2 中 Q-Former 的作用是什么?为什么要加一个Query Transformer?
4.Contrastive Learning 的 InfoNCE Loss 公式是什么?直观上是怎么工作的?
5.在多模态预训练中,如何处理图像分辨率过高的问题?关键优化手段有哪些?
6.LoRA 微调在多模态大模型中的应用有何特别之处?
7.什么是多模态对齐?它和 RLHF 的关系是怎样的?
8.介绍一下 LLaVA 架构的核心原理和主要创新点
9.在视频问答(VideoQA)场景下,时间信息是如何建模的?常见方法有哪些?
三、项目
1.多模态问答系统如何处理OCR和物体检测信息?这些特征在模型中怎么融合?
追问:如果 OCR 提取结果错误,会影响问答准确率吗?你如何降低影响?
2.你的医学影像 + 病历文本项目(这个项目我没用大模型),数据标注成本高,如何缓解?
追问:有用到合成数据/数据增强方法吗?效果如何?
3.在 LLaVA 的基础上加入分辨率自适应编码器,主要优化的是哪部分的瓶颈?推理速度提升多少?
全部评论
相关推荐
11-07 11:47
东南大学 后端工程师
只会按tab的bug...:高中:这个班高考人均985,我考不上985是不是很丢人啊? 考上985本: 班里人均保研985硕了,我保不上是不是很丢人啊? 985本硕:班里人均bat了,我进不去是不是很丢人啊?进了大厂:组里人均p8年薪200w,我拿不到是不是很丢人啊?拿了p8和200w: 身边人都买房买车结婚生子了,我还没买房是不是很丢人啊?你有没有发现,每当你达到下一个目标时,你身边的人必然都是和你同个层次同样优秀的人,如果你陷入这种不断的比较,你永远会不满足。事实就是,当你拿到一个阶段的成就的时候,你就已经超过很多人很厉害很优秀了,你是不需要下一个阶段的成功来证明自己的。 点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看27道真题和解析