字节算法一面面经
实习项目提问
用的模型参数量有多大?
Prompt engineering的方法?有没有自动化的方法?
有什么方法避免出现安全问题和幻觉问题?
Transformer结构
decoder部分训练和推理有什么区别?
decoder预测时i位置预测出来了,然后预测i+1位置,那么是用i位置的token结果还是概率结果?为什么?
Decoder only参数量估计
FFN中一般把d扩大到多少?
KV-cache的空间复杂度
为什么用MMOE?从scaling law的角度去回答
code:编辑距离
用的模型参数量有多大?
Prompt engineering的方法?有没有自动化的方法?
有什么方法避免出现安全问题和幻觉问题?
Transformer结构
decoder部分训练和推理有什么区别?
decoder预测时i位置预测出来了,然后预测i+1位置,那么是用i位置的token结果还是概率结果?为什么?
Decoder only参数量估计
FFN中一般把d扩大到多少?
KV-cache的空间复杂度
为什么用MMOE?从scaling law的角度去回答
code:编辑距离
全部评论
相关推荐
点赞 评论 收藏
分享
11-04 19:37
桂林电子科技大学 运维工程师 点赞 评论 收藏
分享
查看7道真题和解析