腾讯NLP二面部分面经

面后隔了几天,只能按回忆大概写点,腾讯的八股和手撕都挺反套路的,考验理解

部分问题:

模型训练时,如果batch内的文本的长度大小不一,tokenize时以都最大长度padding会增加计算成本,如何解决?(不太确定,回答的先对文本按长度做排序,分好batch和max_seq_length,再混合不同max_seq_length的batch进行训练)

经过padding之后的文本输入,生推理时如何从原始文本最后一个位置开始预测?/ 如何获取最后一个位置的隐层?(没答上来,left-padding和right-padding的区别?使用input里的attention_mask?)

词表很大时,如何优化隐层到输出的Softmax层的计算量?(没答上来,word2vec里提出的hierachical softmax、负采样 ?)

手撕:(先出了1,不会做换了道简单些的2)

1. 使用torch的基本方法实现一个简单的RNN,输入X, Y两段文本(token_ids),得到最后一个隐层作为表征,并计算余弦距离

2. 逐行读取一个文本文件,统计词典并按词频降序输出前k个词,排序部分写归并排序。进一步问如果文件大小超出内存该怎么读?
全部评论
大佬二面过了吗
点赞 回复 分享
发布于 2024-04-06 00:52 广东

相关推荐

06-12 17:46
门头沟学院 Java
运营你豪哥:来说重点: ​1.项目前置,时间倒序。​​ 2.​项目描述强化结果与量化效果(STAR原则里的R)。​​ ​3.个人技能精炼,明确掌握程度,突出核心。​​ ​4.增加强有力开头的个人总结部分。​​ 5.​优化教育背景(成绩排名)、合并奖项与活动。​​
听劝,我这个简历该怎么改...
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
07-01 17:13
想去,但是听说加班强度实在难崩,所以拒绝了,现在有点心梗对面hr感觉也是实习生,打电话的时候怪紧张的,但是感觉人很好嘞
水中水之下水道的鼠鼠:哥们这不先去体验一下,不行再跑呗,大不了混个实习经历(有更好的转正offer就当我没说)
点赞 评论 收藏
分享
评论
4
11
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务