8.23新浪面试

一直以为面试的是秋招岗位,面了一面之后才知道是实习岗位,-_-||,匆匆结束
但是还是问了几个值得我思考的问题:
1.为什么bert在小数据集上微调精度比自己的模型好,但在大数据集上的精度却和自己的模型相当?
不是bert的精度下降了,而是自己的模型在大量数据集上拟合的更好了。
2.transfomer与LSTM对比
3.交叉熵与逻辑回归对比
softmax是一种归一化函数,用于将向量中元素的值都归一化0~1之间,并保持其加和为1。
多标签分类(multi-label classification ),每个样本可以属于多个类别。将最后一个全连接层输入sigmoid激活函数,最终的每个输出都代表样本属于这个类别的概率即P(Y=1|X),这些概率加和不等于1.
交叉熵H(p,q)用于衡量预测分布q与真实分布p之间的相似度,交叉熵越大,相似度越小。因此,要想让预测的标签的分布与真实的标签分布最接近,就最小化交叉熵啦。
4.交叉熵与softmax对比
交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近。
softmax:神经网络的原始输出不是一个概率值,实质上只是输入的数值做了复杂的加权和与非线性处理之后的一个值而已,Softmax层将其处理为概率输出。

全部评论

相关推荐

点赞 2 评论
分享
牛客网
牛客企业服务