超参数科技

收藏
人工智能
100-499人
未融资
深圳

14

在招职位

20

面试经验

0

真题试卷

查看官网
上传简历
此刻你想和大家分享什么
职位类型
全部
后端开发
最新
热门
头像
2023-03-09 15:51
自然语言处理
背景:楼主主要做多模态分类任务方面的研究,秋招主要投NLP和多模态岗位,如果机器学习岗位描述和我相符我也会投我建议每一个秋招人都投投超参数科技磨练磨练,面试官人都很有耐心,问的也很细,答不上来还会提醒你,会让你对自己的项目细节有一些新的思考,听了宣讲觉得他们公司氛围也很好很年轻,奈何人家不要我流程:投递岗位为自然语言处理研究员,投递时间n,一面时间m=n+16天,二面时间k=n+23天=m+7天,二面后一直排序,最终无疾而终一面:1. 自我介绍2. 介绍一个项目以下问题均针对不同项目的细节提出:3. 多模态的任务,在BERT的输入,图片的输入是怎么处理的?4. 图文匹配还有一些好用的loss可以了解一下:文本可以在BERT一侧像预训练一样加上一个MLM的loss;image text alignment,图片和文本对齐的loss5. 图文匹配时,loss是采用的是像clip一样的对比学习的方式嘛?对比学习就是在同一个batch内组负样例。6. 写二分类的交叉熵公式,多分类的交叉熵公式怎么写?7. BERT一层encoder的transformer block包含了哪些元素,或者说算子是如何forward的?8. BERT用的Normalization是LN,那LB和BN的区别是什么?为什么在文本中用LN更好,而在图片中要跨batch做normalization?9. LN的公式?为什么要先把他映射为均值为0,方差为1,有给他乘上增益,加上偏置呢(为什么要再做scale)?10. 写一下self-attention的公式11. BERT用的优化器是什么?(Adam)它的优点是什么?12. 蒸馏的temperature了解嘛13. student学习的时候,是直接学习的teacher的预测值,还是预测值和label都有学习到?14. 模型的loss是怎么算的?15. word2vec里面,因为词表数过多,训练效率的问题有哪两种优化策略?(负采样;层次softmax,将词表构建为树的模型,从O(n)缩到O(logn))16. LSTM在解决梯度爆炸或者梯度消失问题上有什么特点?三个门用到的激活函数是什么?(sigmoid,门是为了保证概率在0~1之间才能控制输出多少量)17. 编程题:最长递增子序列
投递超参数科技等公司9个岗位
点赞 评论 收藏
转发
模拟面试
真实面试体验,快速补齐短板
应聘感受
暂无应聘感受
牛客网
牛客企业服务