科大讯飞秋招多模态算法一面

一、项目介绍+没有手撕?
项目介绍完直接开始面,没写代码

二、八股
1.介绍下Transformer在NLP和CV中的使用区别
2.什么是 CLIP 模型?它是如何做跨模态对齐的?
3.BLIP-2 中 Q-Former 的作用是什么?为什么要加一个Query Transformer?
4.Contrastive Learning 的 InfoNCE Loss 公式是什么?直观上是怎么工作的?
5.在多模态预训练中,如何处理图像分辨率过高的问题?关键优化手段有哪些?
6.LoRA 微调在多模态大模型中的应用有何特别之处?
7.什么是多模态对齐?它和 RLHF 的关系是怎样的?
8.介绍一下 LLaVA 架构的核心原理和主要创新点
9.在视频问答(VideoQA)场景下,时间信息是如何建模的?常见方法有哪些?

三、项目
1.多模态问答系统如何处理OCR和物体检测信息?这些特征在模型中怎么融合?
追问:如果 OCR 提取结果错误,会影响问答准确率吗?你如何降低影响?
2.你的医学影像 + 病历文本项目(这个项目我没用大模型),数据标注成本高,如何缓解?
追问:有用到合成数据/数据增强方法吗?效果如何?
3.在 LLaVA 的基础上加入分辨率自适应编码器,主要优化的是哪部分的瓶颈?推理速度提升多少?
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务